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内 容 提要 


本 书 介绍 了 Python 应 用 在 各 个 领域 中 的 一 些 使 用 技巧 和 方法 ， 其 主题 涵盖 了 数据 结 格 
和 算法 ， 字 符 串 和 文本 ， 数 字 、 日 期 和 时 间 ， 和 迭代 顺和 生成 器 ， 文 件 和 IO， 数据 编码 
与 处 理 ， 函 数 ， 类 与 对 象 ， 元 编程 ， 模 块 和 包 ， 网 络 和 Web 编程 ， 并 发 ， 实 用 脚本 和 
系统 管理 ， 测 试 、 调 试 以 及 异常 ，C 语言 扩展 等 。 
Ak us f Python 应 用 中 的 很 多 常见 问题 ， 并 提出 了 通用 的 解决 方案 。 书 中 包含 了 大 
量 实用 的 编程 技巧 和 示例 代码 , 并 在 Python 3.3 环境 下 进行 了 测试 , 可 以 很 方便 地 应 用 
到 实际 项 目 中 去 。 此 外 ， 本 书 还 详细 讲解 了 解决 方案 是 如 何 工作 的 ， 以 及 为 什么 能 够 
工作 。 


本 书 非常 适合 具有 一 定编 程 基础 的 Python 程序 员 阅 读 参考 。 


O'Reilly Media, Inc. 介绍 


O'Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方式 传播 创新 知识 。 
H 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开 
创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 
社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 
的 倡导 、 创 造 和 发 扬 光 大 。 


ey 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 ( GNN ); 组 


织 


影响 深远 的 开放 源 代码 峰会 , 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂志 ， 


从 而 成 为 DIY 革命 的 主要 先锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。 
O'Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描 绘 出 开创 


新 产业 的 革命 性 思想 。 作 为 技术 人 十 获取 信息 的 选择 ，O’Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ,在 线 服 务 或 者 面授 课程 ， 每 一 
项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 激发 创新 的 力量 。 


业界 评论 


*O'Reilly Radar Ef 0 XP aR,” 
一 一 Wired 
«O'Reilly 凭借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 
的 业务 。” 
——Business 2.0 
“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
— —CRN 
“— O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 .” 
一 一 Irish Times 


"Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 含 路 口 ， 走 小 路 (PK), 回顾 过 去 
Tim 似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 


一 一 Linux Journal 


DE 


É 2008 年 以 来 ,我 们 已 经 目睹 了 整个 Python 世界 正 缓慢 向 着 Python 3 进化 的 事实 。 
众所周知 , 完全 接纳 Python 3 要 花 很 长 的 时 间 。 事 实 上， 就 在 写作 本 书 时 ( 2013 年 )， 
大 多 数 Python 程序 员 仍然 坚持 在 生产 环境 中 使 用 Python 2。 关 于 Python 3 不 能 向 后 
兼容 的 事实 也 已 经 做 了 许多 努力 来 补救 。 的 确 , 向 后 兼容 性 对 于 任何 已 经 存在 的 代码 
库 来 说 是 个 问题 。 但 是 ,如 果 你 着 眼 于 未 来 , 你 会 发 现 Python 3 带 来 的 好 处 绝 非 那么 
简单 。 
正 因 为 Python 3 是 着 眼 于 未 来 的 , 本 书 在 之 前 的 版 本 上 做 了 很 大 程度 的 修改 。 首先 也 
是 最 重要 的 一 点 , 这 是 一 本 积极 拥抱 Python 3 的 书 。 所 有 的 章节 都 采用 Python 3.3 来 
编写 并 进行 了 验证 ， 没 有 考虑 老 的 Python 版 本 或 者 “老式 ”的 实现 方式 。 事 实 上 ， 
许多 章节 都 只 适用 于 Python 3.3 甚至 更 高 的 版 本 。 这 么 做 可 能 会 有 风险 , 但 是 最 终 的 
目的 是 要 编写 一 本 Python 3 的 秘籍 , 尽 可 能 基于 最 先进 的 工具 和 惯用 法 。 我 们 希望 本 
书 可 以 指导 人 们 用 Python 3 编写 新 的 代码 ， 或 者 帮助 开发 人 员 将 已 有 的 代码 升级 到 
Python 3 。 


无 需 歼 言 ， 以 这 种 风格 来 编写 本 书 给 编辑 工作 带 来 了 一 定 的 挑战 。 只 要 在 网 络 上 搜索 
一 下 Python 秘籍 ， 立 刻 就 能 在 ActiveState 的 Python 版 块 或 者 Stack Overflow 这 样 的 
站 点 上 找到 数 以 千 计 的 使 用 心得 和 秘籍 。 但 是 , 大 部 分 这 类 资源 已 经 沉浸 在 历史 和 过 
去 中 了 。 由 于 这 些 心得 和 秘籍 几乎 完全 是 针对 Python 2 所 写 的 , 其 中 常常 包含 有 各 种 
针对 Python 不 同 版 本 (例如 2.3 版 对 比 2.4 版 ) 之 间 差 异 的 变通 方法 和 技巧 。 此 外 ， 
这 些 网 上 资源 常常 使 用 过 时 的 技术 ， 而 这 些 技术 现 在 成 了 Python 3.3 的 内 建功 能 。 想 
寻找 专门 针对 Python 3 的 资源 会 比较 困难 。 

本 书 并 非 搜 寻 特 定 于 Python 3 方面 的 秘籍 将 其 汇集 而 成 , 本 书 的 主题 都 是 在 创作 中 由 
现 有 的 代码 和 技术 而 产生 出 的 灵感 。 我 们 将 这 些 思想 作为 跳板 , 尽 可 能 采用 最 现代 化 
的 Python 编程 技术 来 写作 ， 因 此 本 书 的 内 容 完全 是 原创 性 的 。 对 于 任何 希望 以 现代 
化 的 风格 来 编写 代码 的 人 ， 本 书 都 可 以 作为 参考 手册 。 


在 选择 应 该 包含 哪些 章节 时 , 我 们 有 一 个 共识 。 那 就 是 根本 不 可 能 编写 一 本 涵盖 了 每 
种 Python 用 途 的 书 。 因 此 ， 我 们 在 主题 上 优先 考虑 Python 语言 核心 方面 的 内 容 ， 以 
及 能 够 广泛 适用 于 各 种 应 用 领域 的 常见 任务 。 此 外 , 有 许多 秘籍 是 用 来 说 明 在 Python 
3 中 新 增 的 功能 , 这 对 许多 人 来 说 比较 陌生 , 甚至 对 于 那些 使 用 老 版 Python 经 验 丰 富 
的 程序 员 也 是 如 此 。 我 们 也 会 优先 选择 普遍 适用 的 编程 技术 ( 即 ， 编 程 模式 ) 作为 主 


题 ， 而 不 会 选择 那些 试图 解决 一 个 非常 具体 的 实际 问题 但 适用 范围 太 罕 的 内 容 。 尽 管 
在 部 分 章节 中 也 提 到 了 特定 的 第 三 方 软件 包 , 但 本 书 绝 大 多 数 章节 都 只 关注 语言 核心 
和 标准 库 。 

本 书 适 合 谁 

本 书 的 目标 读者 是 希望 加 深 对 Python 语言 的 理解 以 及 学 习 现代 化 编程 惯用 法 的 有 经 验 
的 程序 员 。 本 书 许多 内 容 把 重点 放 在 库 、 框 架 和 应 用 中 使 用 的 高 级 技术 上 。 本 书 假设 
读者 已 经 有 了 理解 本 书 主题 的 必要 背景 知识 ( 例如 对 计算 机 科学 的 一 般 性 知识 、 数 据 
结构 、 复 杂 度 计算 、 系 统 编程 、 并 发 、C 语言 编程 等 ) 此外， 本 书 中 提 到 的 秘籍 往往 
只 是 一 个 框架 ， 意 在 提供 必要 的 信息 让 读者 可 以 起 步 ， 但 是 需要 读者 自己 做 更 多 的 研 
究 来 填补 其 中 的 细节 。 因 此 ， 我 们 假设 读者 知道 如 何 使 用 搜索 引擎 以 及 优秀 的 Python 
在 线 文档 。 
有 一 些 更 加 高 级 的 章节 将 作为 读者 耐心 阅读 的 奖励 。 这 些 章节 对 于 理解 Python 底层 的 
工作 原理 提供 了 深刻 的 见解 。 你 将 学 到 新 的 技巧 和 技术 ， 可 以 将 这 些 知识 运用 到 自己 
的 代码 中 去 。 

本 书 不 适合 谁 

这 不 是 一 本 用 来 给 初学 者 首次 学 习 Python 编程 而 使 用 的 书 。 事实 上 ,本 书 已 经 假设 读 
者 通过 Python 教程 或 者 人 门 书籍 了 解 了 基本 知识 。 本 书 同样 不 能 用 来 作为 快速 参考 手 
Hb ( 即 ， 快 速 查 询 特定 模块 中 的 某 个 函数 )。 相 反 ， 本 书 的 目标 是 把 重点 放 在 特定 的 编 
程 主题 上 ， 展 示 可 能 的 解决 方案 并 以 此 作为 跳板 引导 读者 学 习 更 加 高 级 的 内 容 。 这 些 
内 容 你 可 能 会 在 网 上 或 者 参考 书 中 遇 到 过 。 


本 书 中 的 约定 


提示 
ay 这 个 图 标 用 来 强调 一 个 提示 、 建 议 或 一 般 说 明 。 
VC Ej 


这 个 图 标 用 来 说 明 一 个 警告 或 注意 事项 。 


在 线 代码 示例 


本 书 中 几乎 所 有 的 代码 示例 都 可 以 在 http://github.com/dabeaz/python-cookbook 上 找到 。 
作者 欢迎 读者 针对 代码 示例 提供 bug 修正 、 改 进 以 及 评论 。 


使 用 代码 示例 


本 书 的 目的 是 为 了 帮助 读者 完成 工作 。 一 般 而 言 ， 你 可 以 在 你 的 程序 和 文档 中 使 用 本 
书 中 的 代码 ， 而 且 也 没有 必要 取得 我 们 的 许可 。 但 是 ， 如 果 你 要 复制 的 是 核心 代码 ， 
则 需要 和 我 们 打 个 招呼 。 例 如 ， 你 可 以 在 无 需 获取 我 们 许可 的 情况 下 ， 在 程序 中 使 用 
本 书 中 的 多 个 代码 块 。 但 是 , 销售 或 分 发 O”Reilly 图 书 中 的 代码 光盘 则 需要 取得 我 们 
的 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 问题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 
是 ， 如 果 你 的 产品 文档 中 融合 了 本 书 中 的 大 量 示例 代码 ， 则 需要 取得 我 们 的 许可 。 

在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 的 属性 信息 是 最 好 不 过 。 一 个 属性 信息 通常 包 
括 书 名 、 作 者、 出 版 社 和 ISBN。 例如 : Python Cookbook, 3rd edtion, by David Beazley and Brain 
K.Jones(O’Reilly)。 Copyright 2013 David Beazley and Brain Jones, 978-1-449-34037-7。 


在 使 用 书 中 的 代码 时 ， 如 果 不 确 定 是 否 属于 正常 使 用 ， 或 是 否 超出 了 我 们 的 许可 ， 请 
通过 permissions@oreilly.com 与 我 们 联系 。 


a 


联系 方式 
如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
O'Reilly Media Inc. 


1005 Gravenstein Highway North 
Sebastopol, CA 95472 

中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035 ) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公 司 


我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额外 的 信息 。 你 可 以 
通过 链接 http://oreil.ly/python cookbook 3e 来 访问 页 面 。 


关于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 
bookquestions@oreilly.com 


欢迎 登录 我 们 的 网 站 Chttp://www.oreilly.com )， 查 看 更 多 我 们 的 书籍 、 课 程 、 会 议和 最 


Facebook: http://facebook.com/oreilly 


Twitter: http://twitter.com/oreillymedia 


YouTube: http://www.youtube.com/oreillymedia 


致谢 


我 们 要 感谢 本 书 的 技术 校 审 人 员 , 他 们 是 Jake Vanderplas、Robert Kern 以 及 Andrea 


Crotti。 感 谢 他 们 非常 有 ) 
电 要 感谢 本 书 第 2 版 


管 本 书 的 第 3 版 是 新 
秘籍 的 初始 框架 。 最 


们 为 本 书 的 改进 做 出 的 评价 和 建议 。 
David Beazley 的 致谢 
写 一 本 书 绝 非 易 事 。 


U, 


HH 
DA 


书 的 问世 。 我 也 


后 也 是 最 重要 的 


因此 ， 我 要 感谢 我 的 
的 耐心 以 及 支持 。 本 书 中 的 许多 素材 都 来 E 
的 训练 课程 。 因此， 我 要 感谢 所 有 参加 了 我 的 课 
感谢 Ned Batchelder、Travis Oliphant、Peter Wang、Brain Van de 


的 评价 ， 也 要 感谢 整个 Python 社区 的 支持 和 鼓励 。 我 介 
的 编辑 Alex Martelli、Anna Ravenscroft 以 及 David Ascher。 
创作 的 , 但 之 前 的 版 本 为 本 书 提供 了 挑选 主题 以 及 所 感 兴趣 
是 , 我 们 要 感谢 本 书 早期 版 本 的 读 


生 ， 正 是 你 们 最 终 


Ven, Hugo Shi, Raymond Hettinger, Michael Foord 以 及 Daniel Klein, /& 


$ 


| 世界 各 地 去 教学 ， 而 让 我 可 以 留 在 芝加哥 
O'Reilly 的 Meghan Blanchette 以 及 Rachel Roumeliotis， 你 们 见证 了 本 书 
的 是 , 我 要 感谢 Python 


的 家 中 完成 本 ; 


David M.Beazley 
http://www.dabeaz.com 


https://twitter.com/dabeaz 


Brain Jones 的 致谢 


程 ， 当 然 也 经 历 了 那些 无 法 预料 到 的 延期 。 最 后 也 是 最 重要 
社区 不 间断 的 支持 ， 以 及 容忍 我 那 不 着 调 的 胡思乱想 。 


T Paula 以 及 我 的 两 个 儿子 ， 感 谢 你 们 
于 我 过 去 6 年 里 所 教 的 与 Python 相关 
程 的 学 


足 成 了 本 


谢 他 们 飞 
的 写作 。 感 谢 来 自 


的 创作 过 


我 要 感谢 我 的 合 著者 David Beazley 以 及 O'Reilly 的 Meghan Blanchette 和 Rachel 


Roumeliotis， 感 谢 你 们 
射 你 在 我 写作 本 书 时 给 予 的 耐心 和 鼓 
UN Python 社区 。 虽 


ax o HH 


mox 
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Python 内 置 了 许多 非常 有 用 的 数据 结构 ， 比 如 列表 ist) RE Cet) 以 及 字典 
(dictionary )。 就 绝 大 部 分 情况 而 言 ， 我 们 可 以 直接 使 用 这 些 数据 结构 。 但 是 ， 通 常 我 
们 还 需要 考虑 比如 搜索 、 排 序 、 排 列 以 及 筛选 等 这 一 类 常见 的 问题 。 因 此 ， 本 章 的 目 
的 就 是 来 讨论 常见 的 数据 结构 和 同 数据 有 关 的 算法 。 此 外 , 在 collections 模块 中 也 包含 
了 针对 各 种 数据 结构 的 解决 方案 。 


1.1 将 序列 分 解 为 单独 的 变量 


1.1.1 问题 
我 们 有 一 个 包含 N 个 元 素 的 元 组 或 序列 ， 现 在 想 将 它 分 解 为 N 个 单独 的 变量 。 


1.1.2 解决 方案 


任何 序列 (或 可 迭代 的 对 象 ) 都 可 以 通过 一 个 简单 的 赋值 操作 来 分 解 为 单独 的 变量 。 
唯一 的 要 求 是 变量 的 总 数 和 结构 要 与 序列 相 吻 合 。 例 如 : 


>>> p= (4, 5) 
>>> X, y-p 
>>> x 

4 

>>> y 

5 

>>> 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 
>>> name, shares, price, date = data 
>>> name 


' ACME' 
>>> date 
(2012, 12, 21) 


>>> name, shares, price, (year, mon, day) = data 
>>> name 

' ACME' 

>>> year 

2012 

>>> mon 

12 

»»» day 

21 

>>> 


如 果 元 素 的 数量 不 匹配 ， 将 得 到 一 个 错误 提示 。 例 如 : 


>>> p = (4, 5) 
>>> X, Y, z=p 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: need more than 2 values to unpack 


>>> 


1.1.3 讨论 
实际 上 不 仅仅 只 是 元 组 或 列表 ， 只 要 对 象 恰 好 是 可 迭代 的 ， 那么 就 可 以 执行 分 解 操作 。 
这 包括 字符 串 、 文 件 、 和 迭代 器 以 及 生成 器 。 比 如 : 


>>> s = 'Hello' 

>>> a, b, c, d e=s 
>>> a 

1H! 

>>> b 


TQ! 
>>> e 
1o! 
>>> 


当做 分 解 操作 时 ， 有 时 候 可 能 想 丢 弃 某 些 特定 的 值 。Python 并 没有 提供 特殊 的 语法 来 
实现 这 一 点 ,但 是 通常 可 以 选 一 个 用 不 到 的 变量 名 ， 以 此 来 作为 要 丢弃 的 值 的 名 称 。 
例如 : 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) 
>>> , shares, price,  - data 
>>> shares 


50 

>>> price 
91.1 

>>> 


但 是 请 确保 选择 的 变量 名 没有 在 其 他 地 方 用 到 过 。 


FF 


12 ”从 任意 长 度 的 可 和 迭代 对 象 中 分 解 元 素 


1.2.1 问题 
需要 从 某 个 可 迭代 对 象 中 分 解 出 N 个 元 素 , 但 是 这 个 可 迭代 对 象 的 长 度 可 能 超过 N, 
这 会 导致 出 现 “ 分 解 的 值 过 多 (too many values to unpack Y 的 异常 。 
1.2.2 ”解决 方案 

Python 的 “* 表 达 式 ”可 以 用 来 解决 这 个 问题 。 例 如 ， 假 设 开设 了 一 门 课程 ， 并 决定 在 
期 末 的 作业 成 绩 中 去 掉 第 一 个 和 最 后 一 个 ， 只 对 中 间 剩 下 的 成 绩 做 平均 分 统计 。 如 果 


只 有 4 个 成 绩 ， 也 许可 以 简单 地 将 4 个 都 分 解 出 来 ， 但 是 如 果 有 24 个 呢 ? * 表 达 式 使 
这 一 切 都 变 得 简单 : 


def drop first last(grades): 


pe 


first, *middle, last = grades 
return avg (middle) 


男 一 个 用 例 是 假设 有 一 些 用 户 记 录 ， 记 录 由 姓名 和 电子 邮件 地 址 组 成 ,后 面 跟着 任意 
数量 的 电话 号 码 。 则 可 以 像 这 样 分 解 记 录 : 


>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212') 
>>> name, email, *phone numbers = user_record 

>>> name 

"Dave! 

>>> email 

"dave@example.com' 


>>> phone numbers 
['773-555-1212', '847-555-1212'] 
>>> 


4 


不 管 需要 分 解 出 多 少 个 电话 号 码 (甚至 没有 电话 号 码 )， 变 量 phone numbers 都 一 直 是 
列表 ,而 这 是 毫 无 意义 的 。 如 此 一 来 , 对 于 任何 用 到 了 变量 phone numbers 的 代码 都 不 
必 对 它 可 能 不 是 一 个 列表 的 情况 负责 ， 或 者 额外 做 任何 形式 的 类 型 检查 。 

由 * 修 饰 的 变量 也 可 以 位 于 列表 的 第 一 个 位 置 。 例 如 ， 比 方 说 用 一 系列 的 值 来 代表 公司 
过 去 8 个 季度 的 销售 额 。 如 果 想 对 最 近 一 个 季度 的 销售 额 同 前 7 个 季度 的 平均 值 做 比 
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较 ， 可 以 这 人 么 做 : 


*trailing qtrs, current qtr = sales record 
trailing avg = sum(trailing qtrs) / len(trailing qtrs) 
return avg comparison(trailing avg, current qtr) 


从 Python 解释 器 的 角度 来 看 ， 这 个 操作 是 这 样 的 : 


>>> *trailing, current = [10, 8, 7, 1, 9, 5, 10, 3] 


>>> trailing 

(10, 8, 7, 1, 9, 5, 10] 
>>> current 

3 


1.2.3 讨论 

XT AER A ETE CBE RY ATTRACT AR, 这 种 扩展 的 分 解 操作 可 请 是 量 身 定做 的 工具 。 
通常 ， 这 类 可 迭代 对 象 中 会 有 一 些 已 知 的 组 件 或 模式 ( 例如 ， 元素 1 之 后 的 所 有 内 容 
都 是 电话 号 码 )， 利 用 * 表 达 式 分 解 可 迭代 对 象 使 得 开发 者 能 够 轻松 利用 这 些 模 式 ， 而 
不 必 在 可 迭代 对 象 中 做 复杂 花哨 的 操作 才能 得 到 相关 的 元 素 。 

* 式 的 语法 在 迭代 一 个 变 长 的 元 组 序列 时 尤其 有 用 。 例 如 ,假设 有 一 个 带 标 记 的 元 组 序列 : 


records = [ 
(['foo', l, 2); 
('bar', 'hello'), 
('foo', 3, 4), 


] 


def do foo(x, y): 
print('foo', x, y) 


def do bar(s): 
print('bar', s) 


for tag, *args in records: 
if tag -- 'foo': 
do foo(*args) 
elif tag -- 'bar': 
do bar(*args) 


当 和 某 些 特定 的 字符 串 处 理 操作 相 结合 ， 比 如 做 拆 分 〈splitting ) 操作 时 ， 这 种 * 式 的 语 
法 所 支持 的 分 解 操作 也 非常 有 用 。 例 如 : 


>>> line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false' 


>>> uname, *fields, homedir, sh = line.split(':') 
>>> uname 

"nobody! 

>>> homedir 
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'/var/empty' 
>>> sh 

' /usr/bin/false' 
>> 


有 时 候 可 能 想 分 解 出 某 些 值 然后 丢弃 它们 。 在 分 解 的 时 候 ， 不 能 只 是 指定 一 个 单独 的 * ， 
但 是 可 以 使 用 几 个 常用 来 表示 待 丢弃 值 的 变量 名 ， 比 如 或 者 ign (ignored), 例如: 


>>> record = ('ACME', 50, 123.45, (12, 18, 2012)) 
>>> name, * , (* , year) = record 

>>> name 

' ACME' 

»»» year 

2012 

>>> 


* 分 解 操作 和 各 种 函数 式 语 言 中 的 列表 处 理 功 能 有 着 一 定 的 相似 性 。 例 如 ， 如 果 有 一 个 
列表 ， 可 以 像 下 面 这 样 轻松 将 其 分 解 为 头 部 和 尾部 : 


>>> items = [1, 10, 7, 4, 5, 9] 
>>> head, *tail = items 

>>> head 

1 

>>> tail 

[10, 7, 4, 5, 9] 

>>> 


在 编写 执行 这 类 拆 分 功能 的 函数 时 ， 人们 可 以 假设 这 是 为 了 实现 某 种 精巧 的 递归 算法 。 例如 : 


>>> def sum(items): 


head, *tail = items 


return head + sum(tail) if tail else head 


>>> sum(items) 
36 
>>> 


但 是 请 注意 , 递归 真 的 不 算是 Python 的 强项 , 这 是 因为 其 内 在 的 递归 限制 所 致 。 因 此 ， 
最 后 一 个 例子 在 实践 中 没 太 大 的 意义 ， 只 不 过 是 一 点 学 术 上 的 好 奇 黑 了 。 


13 ”保存 最 后 N 个 元 素 


1.3.1 问题 
我 们 希望 在 迭代 或 是 其 他 形式 的 处 理 过 程 中 对 最 后 几 项 记录 做 一 个 有 限 的 历史 记 
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zt. 
13.2 ”解决 方案 


保存 有 限 的 历史 记录 可 算是 collections.deque 的 完美 应 用 场景 了 。 例 如 ， 


下 面 的 代码 对 


一 系列 文本 行 做 简单 的 文本 匹配 操作 ， 当 发 现 有 匹配 时 就 输出 当前 的 匹配 行 以 及 最 后 


检查 过 的 N 行文 本 。 


from collections import deque 


def search(lines, pattern, history-5): 
previous lines - deque (maxlen-history) 
for line in lines: 
if pattern in line: 
yield line, previous lines 
previous lines.append(line) 


# Example use on a file 
if name -- ' main 
with open('somefile.txt') as f: 


for line, prevlines in search(f, 'python', 5): 


for pline in prevlines: 
print(pline, end='') 

print(line, end-'') 

print('-'*20 


1.3.3 Wit 


如 同上 面 的 代码 片段 中 所 做 的 一 样 ， 当 编写 搜索 某 项 记录 的 代码 时 ， 通 常会 用 到 含有 


yield 关键 字 的 生成 器 函数 。 这 将 处 理 搜索 过 程 的 代码 和 使 用 搜索 结果 
开 来 。 如 果 对 生成 器 还 不 熟悉 ， 请 参见 4.3 节 。 

deque(maxlen=N) 创 建 了 一 个 固定 长 度 的 队列 。 当 有 新 记录 加 入 而 队列 
除 最 老 的 那 条 记录 。 例 如 : 


>>> q = deque (maxlen-3) 
>>> g.append (1) 

>>> g.append(2) 

>>> g.append (3) 

>>> q 

deque([1, 2, 3], maxlen=3) 
>>> g.append (4) 
>>> a 
deque([2, 3, 4], maxlen=3) 
>>> g.append (5) 
>>> q 
deque([3, 4, 5], maxlen=3) 


的 代码 成 功 解 耦 


已 满 时 会 自动 移 


m 


多 ， 


管 可 以 在 列表 上 手动 完成 这 样 的 操作 ( append、del )， 但 队列 这 种 解决 方案 要 优雅 得 


运行 速度 也 快 得 多 。 


更 普遍 的 是 ， 当 需要 一 个 简单 的 队列 结构 时 ，deque 可 祝 你 一 壁 之 力 。 如 果 不 指定 队列 


的 大 小 ， 也 就 得 到 了 一 个 无 界限 的 队列 ， 可 以 在 两 端 执行 添加 和 弹出 操作 ， 例 如 : 


>>> q = deque() 

>>> q.append(1) 

>>> q.append (2) 

>>> q.append (3) 

>> q 

deque([1, 2, 3]) 
>>> q.appendleft (4) 
>>> q 

deque([4, 1, 2, 3]) 
>>> q.pop() 

3 

>>> q 

deque([4, 1, 2]) 
>>> g.popleft () 

4 


从 队列 两 端 添加 或 弹出 元 素 的 复杂 度 都 是 O(D)。 这 和 列表 不 同 ， 当 从 列表 的 头 部 插 人 
或 移 除 元 素 时 ， 列 表 的 复杂 度 为 O(N)。 
1.4 找到 最 大 或 最 小 的 N 个 元 素 


1.4.1 问题 
我 们 想 在 某 个 集合 中 找 出 最 大 或 最 小 的 N 个 元 素 。 


1.4.2 解决 方案 
heapq 模块 中 有 两 个 函数 一 一 nlargest0 和 nsmallest() 它们 正 是 我 们 所 需要 的 。 例 如: 


import heapq 


nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print(heapq.nlargest(3, nums)) £ Prints [42, 37, 23] 
print(heapq.nsmallest(3, nums)) £ Prints [-4, 1, 2] 


FARRAR LIES 1 9 key, 从 而 允许 它们 工作 在 更 加 复杂 的 数据 结构 之 上 。 例如: 


portfolio = [ 
('name': 'IBM', 'shares': 100, 'price': 91.1}, 
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('name': 'AAPL', 'shares': 50, 'price': 543.22], 
('name': 'FB', 'shares': 200, 'price': 21.09}, 
('name': 'HPQ', 'shares': 35, 'price': 31.75}, 
('name': 'YHOO', 'shares': 45, 'price': 16.35}, 
('name': 'ACME', 'shares': 75, 'price': 115.65) 


] 


cheap = heapq.nsmallest(3, portfolio, key-lambda s: s['price']) 


expensive - heapq.nlargest(3, portfolio, key-lambda s: s['price']) 


143 讨论 


如 果 正 在 寻找 最 大 或 最 小 的 N 个 元 素 ， 且 同 集合 中 元 素 的 总 数目 相 比 ，N 很 小 ,那么 


下 面 这 些 函 数 可 以 提供 更 好 的 性 能 。 这 些 函 数 首先 会 在 底层 将 数据 转化 成 列表 ， 


素 会 以 堆 的 顺序 排列 。 例 如 : 


>>> nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
>>> import heapq 

>>> heap = list(nums) 

>>> heapq.heapify (heap) 

>>> heap 

[49-25 1, Ly 23, 42, 31,-9] 

>> 


的 元 素 取而代之 〈 这 个 操作 的 复杂 度 是 O(logN), N 代表 
小 的 元 素 ， 可 以 这 样 做 : 


>>> heapq.heappop (heap) 
-4 
>>> heapq.heappop (heap) 
1 
>>> heapq.heappop (heap) 
2 


当 所 要 找 的 元 素数 量 相 对 较 小 时 ， 函 数 nlargest() H nsmallest() 才 是 最 适用 的 。 如 果 只 是 


HI 


堆 最 重要 的 特性 就 是 heap[0] 总 是 最 小 那个 的 元 素 。 此 外 ， 接 下 来 的 元 素 可 依次 通过 
heapq.heappop0 方 法 轻松 找到 。 该 方法 会 将 第 一 个 元 素 ( 最 小 的 ) 弹出 ， 然 后 以 第 


二 小 


的 大 小 )。 例 如， 要 找到 第 3 


简单 地 想 找 到 最 小 或 最 大 的 元 素 (N=1 时 ), 那么 用 min0 和 max0 会 更 加 快 。 同 样 ， 如 


R N 和 和 集合 本 身 的 大 小 差不多 大 ， 通常 更 快 的 方法 是 先 对 集合 排序 ， 然 后 做 切片 操作 
(例如 ， 使 用 sorted(items)[:N] 或 者 sorted(items)[-N:] )。 应 该 要 注意 的 是 ，nlargest0 和 


nsmallest() 的 实际 实现 会 根据 使 用 它们 的 方式 而 有 所 不 同 ， 


可 能 会 相应 作出 一 些 优化 措 


施 (比如 ， 当 NN 的 大 小 同和 输入 大 小 很 接近 时 ， 就 会 采用 排序 的 方法 )。 


使 用 本 节 的 代码 片段 并 不 需要 知道 如 何 实 现 堆 数据 结构 ， 


但 这 仍然 是 一 个 有 趣 也 是 值 


8 第 1 章 


得 去 学 习 的 主题 。 通 常 在 优秀 的 算法 和 数据 结构 相关 的 书籍 里 都 能 找到 堆 数据 结构 的 
实现 方法 。 在 heapq 模块 的 文档 中 也 讨论 了 底层 实现 的 细节 。 


1.5 ”实现 优先 级 队列 


1.5.4 问题 
我 们 想 要 实现 一 个 队列 ， 它 能 够 以 给 定 的 优先 级 来 对 元 素 排序 ， 且 每 次 pop 操作 时 都 
会 返回 优先 级 最 高 的 那个 元 素 。 


15.2 ”解决 方案 
下 面 的 类 利用 heapd 模块 实现 了 一 个 简单 的 优先 级 队列 : 


import heapq 


class PriorityQueue: 


def init (self) 
self. queue - [] 
self. index - 0 


def push(self, item, priority): 
heapq.heappush(self. queue, (-priority, self. index, item)) 
self. index += 1 


def pop(self): 
return heapq.heappop(self. queue) [-1] 


下 面 是 如 何 使 用 这 个 类 的 例子 : 


>>> class Item: 
def init (self, name): 
self.name - name 


def repr (self): 
return 'Item({!r})'.format (self.name) 


>>> q = PriorityQueue () 
>>> q.push(Item('foo'), 1) 
>>> q.push(Item('bar'), 
>>> q.push(Item('spam'), 4) 
>>> q.push(Item('grok'), 1) 
>>> q.pop() 

Item('bar') 


>>> q.pop() 
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Item('spam') 
>>> g.pop() 
Item('foo') 
>>> q.pop () 
Item('grok') 
>>> 


请 注意 观察 ， 第 一 次 执行 pop0 操 作 时 返回 的 元 素 具有 最 高 的 优先 级 。 我 们 也 观察 到 拥 
有 相同 优先 级 的 两 个 元 素 (foo 和 grok ) 返回 的 顺序 同 它们 插入 到 队列 时 的 顺序 相同 。 


1.5.3 讨论 

上 面 的 代码 片段 的 核心 在 于 heap Be BRAY fH. KAk heapq.heappushO 以 及 
heapq.heappop0O 分 别 实现 将 元 素 从 列表 queue 中 插入 和 移 除 , 且 保 证 列表 中 第 一 个 元 素 
的 优先 级 最 低 ( 如 1.4 节 所 述 )。heappop() 方 法 总 是 返回 “最 小 ”的 元 素 ， 因 此 这 就 是 
让 队列 能 弹出 正确 元 素 的 关键 。 此 外 ， 由 于 push 和 pop 操作 的 复杂 度 都 是 O(logN), 
其 中 N 代表 堆 中 元 素 的 数量 ， 因 此 就 算 N 的 值 很 大 ， 这 些 操作 的 效率 也 非常 高 。 


在 这 段 代 码 中 ， 队 列 以 元 组 (-priority index, item) 的 形式 组 成 。 把 priority 取 负 值 是 为 了 
让 队列 能 够 按 元 素 的 优先 级 从 高 到 低 的 顺序 排列 。 这 和 正常 的 堆 排 列 顺序 相反 ， 一 般 
情况 下 堆 是 按 从 小 到 大 的 顺序 排序 的 。 
变量 index 的 作用 是 为 了 将 具有 相同 优先 级 的 元 素 以 适当 的 顺序 排列 。 通 过 维护 一 个 不 
断 递增 的 索引 ， 元 素 将 以 它们 入 队列 时 的 顺序 来 排列 。 但 是 ，index 在 对 具有 相同 优先 
级 的 元 素 间 做 比较 操作 时 同样 扮演 了 重要 的 角色 。 
为 了 说 明 Item 实例 是 没 法 进行 次 序 比较 的 ， 我 们 来 看 下 面 这 个 例子 : 

>>> a = Item('foo') 


>>> b = Item('bar') 
»»a«b 


Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
TypeError: unorderable types: Item() « Item() 
>>> 


如 果 以 元 组 (priority, item) 的 形式 来 表示 元 素 ， 那 么 只 要 优先 级 不 同 ， 它 们 就 可 以 进 
行 比较 。 但 是 ， 如 果 两 个 元 组 的 优先 级 值 相同 ， 做 比较 操作 时 还 是 会 像 之 前 那样 失 
Wr, fun: 

>>> a = (1, Item('foo')) 


>>> b = (5, Item('bar')) 
>> a < b 


True 
>>> c = (1, Item('grok')) 
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>>> a《 C 
Traceback (most recent call last): 

File "<stdin>", line 1, in «module» 
TypeError: unorderable types: Item() < Item() 
>>> 


通过 引入 额外 的 索引 值 ， 以 (prioroty, index, item) 的 方式 建立 元 组 ,就 可 以 完全 避免 这 个 


问题 。 因为 没有 哪 两 个 元 组 会 有 相同 的 index 值 ( 一 旦 比较 操作 的 结果 可 以 确定 , Python 
就 不 会 再 去 比较 剩 下 的 元 组 元 素 了 ): 


>>> a = (1, 0, Item('foo')) 
>>> b = (5, 1, Item('bar')) 
>>> c = (1, 2, Item('grok')) 
>>> a<b 

True 

>>> a<c 

True 

>>> 


如 果 想 将 这 个 队列 用 于 线程 间 通 信 ， 还 需要 增加 适当 的 锁 和 信号 机 制 。 请 参见 12.3 7 
的 示例 学 习 如 何 去 做 。 


关于 堆 的 理论 和 实现 在 heapq 模块 的 文档 中 有 着 详细 的 示例 和 相关 讨论 。 


1.6 ”在 字典 中 将 键 映射 到 多 个 值 上 


1.6.1 问题 
我 们 想 要 一 个 能 将 键 (key) 映射 到 多 个 值 的 字典 C 即 所 谓 的 一 键 多 值 字典 [multidict] )。 


16.2 ”解决 方案 


字典 是 一 种 关联 容器 ， 每 个 键 都 映射 到 一 个 单独 的 值 上 。 如 果 想 让 键 映 射 到 多 个 值 ， 需 
要 将 这 多 个 值 保存 到 另 一 个 容器 如 列表 或 集合 中 。 例 如 ， 可 能 会 像 这 样 创 建 字 典 : 


doc 
a sqm 2p S 
b [4, 5] 

} 

e c 
rat & Hl 2 3h 
"pr Hr os) 


} 
要 使 用 列表 还 是 集合 完全 取决 于 应 用 的 意图 。 如 果 和 希望 保留 元 素 插 和 人 的 顺序 ， 就 用 列 
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表 。 如 果 和 希望 消除 重复 元 素 〈 且 不 在 意 它们 的 顺序 )， 就 用 集合 。 


为 了 能 方便 地 创建 这 样 的 字典 , 可 以 利用 collections 模块 中 的 defaultdict 类 。defaultdict 
的 一 个 特点 就 是 它 会 自动 初始 化 第 一 个 值 ， 这 样 只 需 关 注 添加 元 素 即 可 。 例 如 


from collections import defaultdict 


d = defaultdic 


t(list) 
d['a'].append(1) 

2) 

4 


d['a'].append( 
d['b'].append( 


d = defaultdict (set) 


d['a'].add(1) 
d['a'].add(2) 
d['b'].add(4) 


关于 defaultdict， 需 要 注意 的 一 个 地 方 是 ， 它 会 自动 创建 字典 表 项 以 待 稍 后 的 访问 CB 
使 这 些 表 项 当前 在 字典 中 还 没有 找到 )。 如 果 不 想 要 这 个 功能 ,可 以 在 普通 的 字典 上 调 
用 setdefault0 方 法 来 取代 。 例 如 : 


d = () # A regular dictionary 

d.setdefault('a', []).append(1) 
d.setdefault('a', []).append(2) 
d.setdefault('b', []).append(4) 


ii 


然而 , 许多 程序 员 觉 得 使 用 setdefault() rà 4s B 2A— — 3 9 Be &EUCIS ERRE 
个 初始 值 的 新 实例 了 (例子 中 的 空 列表 [] )。 


1.6.8 讨论 
原则 上 ， 构 建 一 个 一 键 多 值 字典 是 很 容易 的 。 但 是 如 果 试 着 自己 对 第 一 个 值 做 初始 化 
操作 ， 这 就 会 变 得 很 杂乱 。 例 如 ， 可 能 会 写 下 这 样 的 代码 : 


d= {} 
for key, value in pairs: 


if key not in d: 
d[key] = [] 
d[key] .append (value) 


使 用 defaultdict 后 代码 会 清晰 得 多 : 


d = defaultdict (list) 
for key, value in pairs: 


d[ key] .append (value) 


这 一 节 的 内 容 同 数据 处 理 中 的 记录 归 组 问题 有 很 强 的 关联 


1.7 让 字典 保持 有 序 


1.7.1 问题 


。 请 参见 1.15 节 的 示例 。 


我 们 想 创建 一 个 字典 ， 同 时 当 对 字典 做 迭代 或 序列 化 操作 时 ， 也 能 控制 其 中 元 素 的 顺序 。 


1.7.2 ”解决 方案 


要 控制 字典 中 元 素 的 顺序 ， 可 以 使 用 collections 模块 中 的 
迭代 时 ， 它 会 严格 按照 元 素 初 始 添加 的 顺序 进行 。 例 如 : 


from collections import OrderedDict 


d = OrderedDict () 


d['foo'] = 1 
d['bar'] = 2 
d['spam'] = 3 
d['grok'] = 4 


# Outputs "foo 1", "bar 2", "spam 3", "grok 4" 
for key in d: 
print(key, d[key]) 


当 想 构建 一 个 映射 结构 以 便 稍 后 对 其 做 序列 化 或 编码 成 男 


OrderedDict 类 。 当 对 字典 做 


显得 特别 有 用 。 例如 ， 如果 想 在 进行 ISON 编码 时 精确 控 人 
先 在 OrderedDict 中 构建 数据 就 可 以 了 。 


>>> import json 


>>> json.dumps (d) 


'("foo": 1, "bar": 2, "spam": 3, "grok": 4J' 
>>> 


173 讨论 


种 格式 时 ，OrderedDict 就 
BERRY, 那么 只 要 首 


OrderedDict 内 部 维护 了 一 个 双向 链表 ， 它 会 根据 元 素 加 入 的 顺序 来 排列 键 的 位 置 。 第 


一 个 新 加 入 的 元 素 被 放置 在 链表 的 末尾 。 接 下 来 对 已 存在 的 键 做 重新 赋值 不 会 改变 键 


的 顺序 。 


请 注意 OrderedDict 的 大 小 是 普通 字典 的 2 倍 多 ， 这 是 由 于 它 额外 创建 的 链表 所 致 。 因 
此 ， 如 果 打 算 构 建 一 个 涉及 大 量 OrderedDict 实例 的 数据 结构 ( 例如 从 CSV 文件 中 读 


HX 100000 行内 容 到 OrderedDict 列表 中 )， 那 么 需要 认真 对 应 用 做 需求 分 析 ， 从 而 判断 
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使 用 OrderedDict 所 带 来 的 好 处 是 否 能 超越 因 额 外 的 内 存 开销 所 带 来 的 缺点 。 


1.8 与 字典 有 关 的 计算 问题 
1.8.1 问题 
我 们 想 在 字典 上 对 数据 执行 各 式 各 样 的 计算 比如 求 最 小 值 、 最 大 值 、 排 序 等 ) 


18.2 ”解决 方案 
假设 有 一 个 字典 在 股票 名 称 和 对 应 的 价格 间 做 了 映射 : 


prices = ( 
'ACME': 45.23, 
'AAPL': 612.78, 
'IBM': 205.55, 
"HPQ': 37.20, 
'FB': 10.75 


} 
为 了 能 对 字典 内 容 做 些 有 用 的 计算 ,通常 会 利用 zip0 将 字典 的 键 和 值 反 转 过 来 。 例 如 ， 
下 面 的 代码 会 告诉 我 们 如 何 找 出 价格 最 低 和 最 高 的 股票 。 


min price = min(zip(prices.values(), prices.keys())) 
# min price is (10.75, 'FB') 


max price - max(zip(prices.values(), prices.keys())) 
# max price is (612.78, 'AAPL') 


同样 ， 要 对 数据 排序 只 要 使 用 zip0 再 配合 sorted0 就 可 以 了 ， 比 如 ; 


prices sorted = sorted(zip(prices.values(), prices.keys())) 
# prices sorted is [(10.75, 'FB'), (37.2, 'HPQ'), 

# (45.23, 'ACME'), (205.55, 'IBM'), 

# (612.78, 'AAPL')] 


当 进 行 这些 计 算 时 ， 请 注意 zip0 创 建 了 一 个 迭代 器 ， 它 的 内 容 只 能 被 消费 一 次 。 例 如 
下 面 的 代码 就 是 错误 的 : 


prices and names = zip(prices.values(), prices.keys()) 


print(min(prices and names)) # OK 


print (max (prices and names) ) # ValueError: max() arg is an empty sequence 


1.8.3 讨论 
如 果 尝 试 在 字典 上 执行 常见 的 数据 操作 ， 将 会 发 现 它们 只 会 处 理 键 ， 而 不 是 值 。 例 如 : 


min (prices) # Returns 'AAPL' 
max (prices) # Returns 'IBM' 


这 很 可 能 不 是 我 们 所 期 望 的 ， 因 为 实际 上 我 们 是 尝试 对 字典 的 值 做 计算 。 可 以 利用 字 
SLAY values() 方 法 来 解决 这 个 问题 : 


min(prices.values()) # Returns 10.75 


max (prices. values () ) # Returns 612.78 


不 幸 的 是 ， 通 常 这 也 不 是 我 们 所 期 望 的 。 比 如 ， 我 们 可 能 想 知道 相应 的 键 所 关联 的 信 
息 是 什么 (例如 哪 支 股票 的 价格 最 低 ? ) 


如 果 提 供 一 个 key 参数 传递 给 min0 和 max()， 就 能 得 到 最 大 值 和 最 小 值 所 对 应 的 键 是 
fr^. 例如 : 


min(prices, key-lambda k: prices[k]) # Returns 'FB' 


max(prices, key-lambda k: prices[k]) # Returns 'AAPL' 


但 是 ， 要 得 到 最 小 值 的 话 ， 还 需要 额外 执行 一 次 查找 。 例 如 : 


min value = prices[min(prices, key=lambda k: prices[k])] 


利用 了 zip0 的 解决 方案 是 通过 将 字典 的 键 - 值 对 “ 反 转 ”为 值 - 键 对 序列 来 解决 这 个 问 
[uus 


当 在 这 样 的 元 组 上 执行 比较 操作 时 ， 值 会 先进 行 比较 ， 然 后 才 是 键 。 这 完全 符合 我 们 
的 期 望 ， 允 许 我 们 用 一 条 单独 的 语句 轻松 的 对 字典 里 的 内 容 做 整理 和 排序 。 

应 该 要 注意 的 是 ， 当 涉及 (value, key) 对 的 比较 时 ， 如 果 碰 巧 有 多 个 条 目 拥 有 相同 的 
value 值 ， 那 么 此 时 key 将 用 来 作为 判定 结果 的 依据 。 例 如 ， 在 计算 min0 和 maxO 时 ， 
如 果 碰 巧 value 的 值 相同 ， 则 将 返回 拥有 最 小 或 最 大 key 值 的 那个 条 目 。 示 例如 下 : 


>>> prices = ( 'AAA' : 45.23, 'ZZZ': 45.23 } 
>>> min(zip(prices.values(), prices.keys())) 
(45.23, 'AAA') 

>>> max(zip(prices.values(), prices.keys())) 
(45.23, 'ZZ2') 

>>> 


1.9 RS ze BE FR Sl 


1.9.1 问题 
有 两 个 字典 ， 我 们 想 找 出 它们 中 间 可 能 相同 的 地 方 ( 相同 的 键 、 相 同 的 值 等 )。 
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19.2 解决 方案 


考虑 如 下 两 个 字典 : 
| 
t er ls 
MT 27 
"ZU ELS 
} 
b= { 
Tet r. 10, 
"RN es Ti 
"y" un 2 


} 
要 找 出 这 两 个 字典 中 的 相同 之 处 , 只 需 通过 keys0 或 者 items() 方 法 执行 常见 的 集合 操作 


即 可 。 例 如 : 


Find keys in common 
a.keys() & b.keys() # ( 'x', 'y' ) 


Find keys in a that are not in b 


a.keys() - b.keys() # ( 'z' ) 


Find (key,value) pairs in common 


a.items() & b.items() # ( ('y', 2) ) 


bá 


N 


这 些 类 型 的 操作 也 可 用 来 修改 或 过 滤 掉 字典 中 的 内 容 。 例 如 ， 假 设想 创建 一 个 新 的 字 
4 ， 其 中 会 去 掉 某 些 键 。 下 面 是 使 用 了 字典 推导 式 的 代码 示例 : 


# Make a new dictionary with certain keys removed 


c= {key:a[key] for key in a.keys() - ('z', 'w'}} 
boc xs [xU 'y5e2] 


19. 讨论 


字典 就 是 一 系列 键 和 值 之 间 的 映射 集合 。 字 典 的 keys0 方 法 会 返回 keys-view WA, HH 
中 暴露 了 所 有 的 键 。 


关于 字典 的 键 有 一 个 很 少 有 人 知道 的 特性 ， 那 就 是 它们 也 支持 常 


见 的 集合 操作 ， 比 如 求 并 集 、 交 集 和 差 集 。 因 此 ， 如 果 需 要 对 字典 的 键 做 常见 的 集合 
操作 ， 那 么 就 能 直接 使 用 keys-view 对 象 而 不 必 先 将 它们 转化 为 集合 。 


字典 的 items(0) 方 法 返回 由 (keyvalue) 对 组 成 的 items-view 对 象 。 这 个 对 象 支持 类 似 的 集 


合 操作 ， 可 用 来 完成 找 出 两 个 字典 间 有 哪些 键 值 对 有 相同 之 处 的 操作 。 
尽管 类 似 ， 但 字典 的 values0 方 法 并 不 支持 集合 操作 。 部 分 原因 是 因为 在 字典 中 键 和 值 


是 不 同 的 ， 从 值 的 


度 来 看 并 不 能 保证 所 有 的 值 都 是 唯一 的 。 单 这 一 条 原因 就 使 得 某 
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些 特定 的 集合 操作 是 有 问题 的 。 但 是 ， 如 果 必 须 执行 这 样 的 操作 ， 还 是 可 以 先 将 值 转 


化 为 集合 来 实现 。 


IA 


1.10 ”从 序列 中 移 除 重复 项 且 保 持 元 素 间 顺序 不 变 


1.10.1 问题 
我 们 想 去 除 序列 中 出 现 的 重复 元 素 ， 但 仍然 保持 剩 下 的 元 素 顺序 不 变 。 


1.10.2 ”解决 方案 


如 果 序列 中 的 值 是 可 哈 希 (hashable ) 的 ， 那 么 这 个 问题 可 以 通过 使 用 集合 和 生成 器 轻 
松 解 决 。 示 例如 下 : 


def dedupe (items): 


Seen = set() 
for item in items: 
if item not in seen: 
yield item 


seen.add (item) 


这 里 是 如 何 使 用 这 个 函数 的 例子 : 


»»a-[1, 5, 2, 1, 9, 1, 5, 10] 
>>> list (dedupe (a) ) 

[15:55 2p OF 10] 

>>> 


RA AFIP HLR A AY RA HE RA EA o LR EU EE BADGES. (C 比如 列 
d) 序列 中 去 除 重复 项 ， 需 要 对 上 述 代 码 稍 作 修 改 : 


def dedupe(items, key-None): 


seen = set() 
for item in items: 
val = item if key is None else key(item) 
if val not in seen: 
yield item 


seen.add(val) 


这 里 参数 key 的 作用 是 指定 一 个 函数 用 来 将 序列 中 的 元 素 转换 为 可 哈 希 的 类 型 ， 这 人 么 
做 的 目的 是 为 了 检测 重复 项 。 它 可 以 像 这 样 工作 : 


”如 果 一 个 对 象 是 可 哈 希 的 ， 那么 在 它 的 生存 期 内 必须 是 不 可 变 的 ， 它 需 要 有 一 个 _hash _0 方 法 。 
整数 、 浮 点 数 、 字 符 串 、 元 组 都 是 不 可 变 的 。 一 一 译 者 注 
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| 
>>> list(dedupe(a, key-lambda d: (d['x'],d['y']))) 
[tte de 'y'rpge (Ux Ol, "y's 35, ('x'S29 ty hs Ay] 

) 


>>> list(dedupe(a, key-lambda d: d['x'])) 
[Ux': 1, 'y': 2), Cx': 2, 'y': 4] 
>>> 


ARS AE BERE BUR rp, RPE TAR SR PF Be i ERARE, 
那么 后 一 种 解决 方案 同样 能 完美 工作 。 


1.10.3 ”讨论 


如 


果 想 要 做 的 只 是 去 除 重复 项 ， 那 么 通常 足够 简单 的 办 法 就 是 构建 一 个 集合 。 例 如 : 


>> a 

| es 524-157 Gp, 15:595 30] 
>>> set (a) 

[1.25 105 5; 9} 

>> 


但 是 这 种 方法 不 能 保证 元 素 间 的 顺序 不 变 "， 因 此 得 到 的 结果 会 被 打 乱 。 前 面 展 示 的 解 
决 方案 可 避免 出 现 这 个 问题 。 


本 节 中 对 生成 器 的 使 用 反映 出 一 个 事实 ， 那 就 是 我 们 可 能 会 希望 这 个 函数 尽 可 能 的 通 


用 


不 必 绑 定 在 只 能 对 列表 进行 处 理 。 比 如 ， 如 果 想 读 一 个 文件 ， 去 除 其 中 重复 的 


文本 行 ， 可 以 只 需 这 样 处 理 : 


with open(somefile,'r') as f: 


for line in dedupe(f): 


我 们 的 dedupeO0 函 数 也 模仿 了 内 置 函数 sorted0 、min0 以 及 max()Xt key 函数 的 使 用 方 
式 。 例 子 可 参考 1.8 节 和 1.13 节 。 


1.11 对 切片 命名 


1.11.1 问题 
我 们 的 代码 已 经 变 得 无 法 阅读 ， 到 处 都 是 硬 编码 的 切片 索引 ， 我 们 想 将 它们 清理 干净 。 


1.11.2 ”解决 方案 


假设 有 一 些 代码 用 来 从 字符 串 的 固定 位 置 中 取出 具体 的 数据 ( 比如 从 一 个 平面 文件 或 


a 


中 


集合 的 特点 就 是 集合 中 的 元 素 都 是 唯一 的 ， 但 不 保证 它们 之 间 的 顺序 。 一 一 译 者 注 
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AAA. 


HHH EHH 0123456789012345678901234567890123456789012345678901234567890' 
record = dam KOCH EE LO0 aes oe aac aerate ee er 
cost = int(record[20:32]) * float (record[40:48]) 


与 其 这 样 做 ， 为 什么 不 对 切片 命名 呢 ? 


SHARES = slice(20,32) 
PRICE = slice(40,48) 


cost = int(record[SHARES]) * float(record[PRICE]) 


在 后 一 种 版 本 中 ， 由 于 避免 了 使 用 许多 神秘 难 懂 的 硬 编码 索引 ， 我 们 的 代码 就 变 得 清 


晰 了 许多 。 
1.11.3 讨论 


作为 一 条 基本 准则 ， 代 码 中 如 果 有 很 多 硬 编 码 的 索引 值 ， 将 导致 可 读 性 和 可 


维护 性 都 不 


佳 。 例 如 ， 如 果 一 年 以 后 再 回 过 头 来 看 代码 ， 你 会 发 现 自己 很 想 知 道 当 初 编写 这 些 代码 
时 自己 在 想 些 什么 。 前 面 展示 的 方法 可 以 让 我 们 对 代码 的 功能 有 着 更 加 清晰 的 认识 。 


一 般 来 说 , 内 置 的 slice0 函 数 会 创建 一 个 切片 对 象 , 可 以 用 在 任何 允许 进行 切片 操作 的 


地 方 。 例 如 : 


>>> items = [0, 1, 2, 3, 4, 5, 6] 
>>> a = slice(2, 4) 

>>> items[2:4] 

Bis 
>>> items [a] 
24.3 
>>> items[a] = [10,11] 
>>> items 
0, 1, 10, 11, 4, 5, 6] 
»»» del items[a] 

>>> items 

0, 1, 4, 5, 6] 


MRA — slice 对 象 的 实例 s, 可 以 分 别 通过 s.start. s.stop 以 及 s.step 属性 来 得 到 关于 


该 对 象 的 信息 。 例 如 : 


>>> a = slice( 
>>> a.start 

10 

>>> a.stop 


F 面 文件 (flat file) 是 一 种 包含 没有 相对 关系 结构 的 记录 文件 。 一 一 译 考 注 
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50 

>>> a.step 
2 

>>> 


此 外 ， 可 以 通过 使 用 indices(size) 方 法 将 切片 映射 到 特定 大 小 的 序列 上 。 这 会 返回 一 个 


(start, stop, step) 元 组 , 


出 现 IndexError 异常 )。 例 如 : 


1. 


>>> s = 'HelloWorld' 

>>> a.indices(len(s) ) 

(5y 107 *2) 

>>> for i in range(*a.indices(len(s))): 
. print(s[il) 


12 找 出 序列 中 出 现 次 


1.12.1 问题 
我 们 有 一 个 元 素 序 列 ， 想 知道 在 序列 中 出 现 次 数 最 多 的 元 素 是 什么 。 


1.12.2 ”解决 方案 


collections 模块 中 的 Counter 
most_common() 方 法 可 以 直接 告诉 我 人 


为 了 说 明 用 法 ,假设 有 一 个 列表 ,列表 


的 最 为 频繁 。 下 面 是 我 们 的 做 法 : 


words = [ 


'look', 'into', 'my', 'eyes', 'look', 


'the', 'eyes', 'the', 'eyes', 'the', 
'eyes', "don't", 'look', 'around', ' 
'my', 'eyes', "you're", 'under' 


] 


from collections import Counter 

word counts - Counter (words) 

top three = word counts.most common (3) 
print(top three) 


VER. 


所 有 的 值 都 已 经 恰当 地 限制 在 边界 以 内 ( 当做 索引 操作 时 可 避免 


数 最 多 的 元 素 


类 正 是 为 此 类 问题 所 设计 的 。 它 甚至 有 一 个 非常 方便 的 


P 是 一 系列 的 单词 ， 我 们 想 找 出 哪些 单词 出 现 


‘into', 'my', 'eyes', 
'eyes', 'not', ‘around', 'the', 
the', 'eyes', 'look', 'into', 


# Outputs [('eyes', 8), ('the', 5), ('look', 4)] 
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1123 讨论 
可 以 给 Counter 对 象 提 供 任 何 可 哈 希 的 对 象 序列 作为 输入 。 在 底层 实现 中 ，Counter 是 
一 个 字 上 由， 在 元 素 和 它们 出 现 的 次 数 间 做 了 映射 。 例 如 : 


>>> word counts['not'] 
1 

>>> word counts['eyes' 
8 

>>> 


如 果 想 手动 增加 计数 ， 只 需 简 单 地 自 增 即 可 : 


>>> morewords = ['why','are','you', 'not','looking','in', 'my', 'eyes'] 
>>> for word in morewords: 


. Word counts[word] += 1 


>>> word counts['eyes'] 
9 
>>> 


另 一 种 方式 是 使 用 update( 方 法 。 


>>> word counts.update (morewords) 


>>> 


KF Counter 对 象 有 一 个 不 为 人 知 的 特性 , 那 就 是 它们 可 以 轻松 地 同 各 种 数学 运算 操作 
结合 起 来 使 用 。 例 如 : 


>>> a = Counter (words) 


>>> b = Counter (morewords) 

>>> a 

Counter(('eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 
"you're": 1, "don't": 1, 'under': 1, 'not': 1}) 

>>> b 

Counter(('eyes': 1, 'looking': 1, 'are': 1, 'in': 1, 'not': 1, 'you': 1, 
'my': 1, 'why': 1}) 


>>> # Combine counts 

>>> c=athb 

>>> c 

Counter(('eyes': 9, 'the': 5, 'look': 4, 'my': 4, 'into': 3, 'not': 2, 
'around': 2, "you're": 1, "don't": 1, 'in': 1, 'why': 1, 


'looking': 1, 'are': 1, 'under': 1, 'you': 1]) 


>>> # Subtract counts 
>> d=a-b 
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>>> d 

Counter(('eyes': 7, 'the': 5, 'look': 4, 'into': 3, 'my': 2, 'around': 2, 
"you're": 1, "don't": 1, 'under': 1]) 

>>> 


不 用 说 ， 当 面 对 任 何 需 要 对 数据 制 表 或 计数 的 问题 时 ，Counter 对 象 都 是 你 手边 的 
工具 。 比 起 利用 字典 自己 手写 算法 ， 更 应 该 采用 这 种 方式 完成 任务 。 


1.13 通过 公共 键 对 字典 列表 排序 


1.13.1 问题 
我 们 有 一 个 字典 列表 ， 想 根据 一 个 或 多 个 字典 中 的 值 来 对 列表 排序 。 
1.13.2 ”解决 方案 


利用 operator 模块 中 的 itemgetter 函数 对 这 类 结构 进行 排序 是 非常 简单 的 。 假 设 通关 
询 数 据 库 表 项 获取 网 站 上 的 成 员 列表 ， 我 们 得 到 了 如 下 的 数据 结构 : 


amt 


'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, 


'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, 


{ 
('fname': 'David', 'lname': 'Beazley', 'uid': 1002}, 
{ 
('fname': 'Big', 'lname': 'Jones', 'uid': 1004} 


根据 所 有 的 字典 中 共有 的 字段 来 对 这 些 记录 排序 是 非常 简单 的 ， 示 例如 下 : 


from operator import itemgetter 


rows by fname = sorted(rows, key=itemgetter('fname') ) 
rows by uid = sorted(rows, key=itemgetter('uid')) 


print(rows by fname) 
print(rows by uid) 


以 上 代码 的 输出 为 : 

[{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}, 
('fname': 'Brian', 'uid': 1003, 'l1name': 'Jones'], 
('fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
('fname': 'John', 'uid': 1001, 'lname': 'Cleese'}] 


'fname': 'John', 'uid': 1001, 'lname': 'Cleese'}, 


{ 
('fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
('fname': 'Brian', 'uid': 1003, 'lname': 'Jones"}, 

{ 


'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}] 
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itemgetter() 了 水 数 还 可 以 接受 多 个 键 。 例 如 下 面 这 上段 代码 .: 
rows by lfname = sorted(rows, key-itemgetter('lname','fname')) 
print(rows by lfname) 
会 产生 如 下 的 输出 : 


'fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 


( 
('fname': 'John', 'uid': 1001, 'lname': 'Cleese')], 
('fname': 'Big', 'uid': 1004, 'lname': 'Jones'}, 

{ 


'fname': 'Brian', 'uid': 1003, 'l1name': 'Jones'}] 


1.43.3 ”讨论 

在 这 个 例子 中 ，rows 被 传递 给 内 建 的 sorted0 函 数 ， 该 函数 接受 一 个 关键 字 人 参数 key。 这 
个 参数 应 该 代表 一 个 可 调用 对 象 (callable )， 该 对 象 从 rows 中 接受 一 个 单独 的 元 素 作 为 
输入 并 返回 一 个 用 来 做 排序 依据 的 值 。itemgetter0 函 数 创建 的 就 是 这 样 一 个 可 调用 对 象 。 


PKA operator.itemgetter() 接 受 的 参数 可 作为 查询 的 标记 , 用 来 从 rows 的 记录 中 提取 出 
所 需要 的 值 。 它 可 以 是 字典 的 键 名 称 、 用 数字 表示 的 列表 元 素 或 是 任何 可 以 传 给 对 象 
的 ”getitem 0 方法 的 值 。 如 果 传 多 个 标记 给 itemgetter()， 那 么 它 产生 的 可 调用 对 象 
将 返回 一 个 包含 所 有 元 素 在 内 的 元 组 ， 然 后 sorted0 将 根据 对 元 组 的 排序 结果 来 排列 
输出 结果 。 如 果 想 同时 针对 多 个 字段 做 排序 C 比如 例子 中 的 姓 和 名 )， 那 么 这 是 非常 
有 用 的 。 


有 时 候 会 用 lambda 表达 式 来 取代 itemgetter() 的 功能 。 例 如 : 


rows by fname = sorted(rows, key-lambda r: r['fname']) 
rows by lfname = sorted(rows, key-lambda r: (r|['lname'],r['fname']]) 


这 种 解决 方案 通常 也 能 正常 工作 。 但 是 用 itemgetter0 通 常会 运行 得 更 快 一 些 。 因 此 如 
果 需 要 考虑 性 能 问题 的 话 ， 应 该 使 用 itemgetter(). 
最 后 不 要 忘 了 本 节 中 所 展示 的 技术 同样 适用 于 min0 和 max0O 这 样 的 函数 。 例 如 : 

>>> min(rows, key-itemgetter('uid')) 


('fname': 'John', 'lname': 'Cleese', 'uid': 1001) 
>>> max(rows, key-itemgetter('uid')) 


('fname': 'Big', 'lname': 'Jones', 'uid': 1004) 
>> 


1.14 ”对 不 原生 支持 比较 操作 的 对 象 排序 


1.14.1 ”问题 
我 们 想 在 同一 个 类 的 实例 之 间 做 排序 ， 但 是 它们 并 不 原生 支持 比较 操作 。 
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1.14.2 ”解决 方案 


内 建 的 sorted0 函 数 可 接受 一 个 用 来 传递 可 调用 对 象 (callable ) 的 参数 key， 而 该 
可 调用 对 象 会 返回 竺 排序 对 象 中 的 某 些 值 ，sorted 则 利用 这 些 值 来 比较 对 象 。 例 
如 ， 如 果 应 用 中 有 一 系列 的 User 对 象 实例 ， 而 我 们 想 通 过 user id 属性 来 对 它们 
排序 ， 则 可 以 提供 一 个 可 调用 对 象 将 User. 实例 作为 输入 然后 返回 user id。 示例 
如 下 : 


>>> class User: 


def init (self, user id): 
self.user id - user id 
def repr (self): 


return 'User(())'.format(self.user id) 


>>> users = [User(23), User(3), User(99)] 
>>> users 

[User(23), User(3), User(99)] 

>>> sorted(users, key-lambda u: u.user id) 
[User(3), User(23), User(99)] 

>>> 


除了 可 以 用 lambda 表达 式 外 ， 另 一 种 方式 是 使 用 operator.attrgetter()。 


>>> from operator import attrgetter 


>>> sorted(users, key-attrgetter('user id')) 
[User(3), User(23), User(99)] 
>>> 


1.14.3 ”讨论 

要 使 用 lambda 表达 式 还 是 attrgetter0 或 许 只 是 一 种 个 人 喜好 。 但 是 通常 来 说 ，attrgetter0 要 
更 快 一 些 , 而 且 具 有 人 允许 同时 提取 多 个 字段 值 的 能 力 。 这 和 针对 字典 的 operator.itemgetter() 
的 使 用 很 类 似 ( 参见 1.13 $) 例如， 如 果 User 实例 还 有 一 个 first name 和 last name 
属性 的 话 ， 可 以 执行 如 下 的 排序 操作 : 


by name = sorted(users, key-attrgetter('last name', 'first name')) 


同样 值得 一 提 的 是 ， 本 节 所 用 到 的 技术 也 适用 于 像 min0 和 max0 这 样 的 函数 。 例 如 : 


>>> min(users, key-attrgetter('user id') 


User (3) 
>>> max(users, key-attrgetter('user id') 


User (99) 
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1.15 ”根据 字段 将 记录 分 组 


问题 


1.15.1 


有 一 系列 的 字典 或 对 象 实例 , 我 们 想 根据 某 个 特定 的 字段 ( 比如 说 日 期 ) 来 分 组 迭代 数据 。 


1.15.2 ”解决 方案 
itertools.groupbyO 〇 函数 在 对 数据 进行 分 组 时 
字典 列表 : 


rows = [ 


s "5412 
: 15148 


CLARK', 'date': ' 
CLARK', 'date': ' 


'address': '5800 E 58TH', 'date': '0 
'address': '2122 CLARK', 'date': ' 
: 075645 RAVENSWOOD', 'dat 


: '1060 W ADDISON', 'date': 
: '4801 BROADWAY', 'date' 
: '1039 W GRANVILLE', 'date 


] 


特别 有 用 。 为 了 说 明 其 用 途 ， 假 设 有 如 下 的 


07/01/2012"}, 

07/04/2012'], 

7/02/2012"}, 

07/03/2012"}, 

e': '07/02/2012'}, 
"07/02/2012"}, 

: 107/01/2012"'}, 
': '07/04/2012"}, 


现在 假设 想 根据 日 期 以 分 组 的 方式 迭代 数据 。 要 做 到 这 些 ， 首 先 以 目标 字段 〈 在 这 个 


例子 中 是 date) 来 对 序列 排序 ， 然 后 再 使 月 


from operator import itemgetter 
from itertools import groupby 


# Sort by the desired field first 
rows.sort(key-itemgetter('date')) 


# Iterate in groups 


H itertools.groupby()« 


for date, items in groupby(rows, key-itemgetter('date')): 


print (date) 
for i in items: 
print(' ', i) 
这 会 产生 如 下 的 输出 : 
07/01/2012 
('date': '07/01/2012', 'address': '5412 N CLARK'} 
('date': '07/01/2012', 'address': '4801 N BROADWAY'} 
07/02/2012 
('date': '07/02/2012', 'address': '5800 E 58TH'} 
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('date': '07/02/20 'address': '5645 N RAVENSWOOD' } 

('date': '07/02/2012', 'address': '1060 W ADDISON'} 
07/03/2012 

('date': '07/03/2012', 'address': '2122 N CLARK'} 
07/04/2012 

('date': '07/04/20 

('date': '07/04/20 


1.15.3 讨论 
函数 groupby0O 通 过 扫描 序列 找 出 拥有 相同 值 ( 或 是 由 参数 key 指定 的 函数 所 返回 的 值 ) 
的 序列 项 ， 并 将 它们 分 组 。groupby0 创 建 了 一 个 迭代 髓 ， 而 在 每 次 迭代 时 都 会 返回 一 
“MEL (value ) 和 一 个 子 迭 代 器 (sub_iterator )， 这 个 子 迭 代 器 可 以 产生 所 有 在 该 分 组 内 
具有 该 值 的 项 。 
在 这 里 重要 的 是 首先 要 根据 感 兴趣 的 字段 对 数据 进行 排序 。 因 为 groupbyO 只 能 检查 连 
续 的 项 ， 不 首先 排序 的 话 ， 将 无 法 按 所 想 的 方式 来 对 记录 分 组 。 
如 果 只 是 简单 地 根据 日 期 将 数据 分 组 到 一 起 ， 放 进 一 个 大 的 数据 结构 中 以 允许 进行 随 
机 访问 ,那么 利用 defaultdict0 构 建 一 个 一 键 多 值 字典 ( multidict， 见 1.6 节 ) 可 能 会 更 
好 。 例 如 : 

from collections import defaultdict 


rows by date = defaultdict (list) 


for row in rows: 


N 


N 


'address': '5148 N CLARK'} 
'address': '1039 W GRANVILLE'} 


N 


rows by date[row['date']].append (row) 


这 使 得 我 们 可 以 方便 地 访问 每 个 日 期 的 记录 ， 如 下 所 示 : 


>>> for r in rows by date['07/01/2012']: 
print(r) 


('date': '07/01/2012', 'address': '5412 N CLARK'} 
('date': '07/01/2012', 'address': '4801 N BROADWAY!) 
>>> 


对 于 后 面 这 个 例子 ， 我 们 并 不 需要 先 对 记录 做 排序 。 因 此 ， 如 果 不 考 虑 内 存 方面 的 因 
素 ， 这 种 方式 会 比 先 排序 再 用 groupby0 迭 代 要 来 的 更 快 。 


1.16 ”筛选 序列 中 的 元 素 


1.16.1 问题 
序列 中 含有 一 些 数据 ， 我 们 需要 提取 出 其 中 的 值 或 根据 某 些 标准 对 序列 做 删 减 。 
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1.16.2 ”解决 方案 
要 簿 选 序列 中 的 数据 ， 通 


a: 
>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 
>>> [n for n in mylist if n > 0] 
(1, 4, 10, 2, 3] 
>>> [n for n in mylist if n « 0] 
[-5, -7, -1] 
>>> 
使 用 列表 推导 式 的 一 个 潜在 缺点 是 
庞大 的 结果 。 如 果 这 是 你 需要 考虑 的 问题 ， 
式 产生 筛选 的 结果 。 例 如 : 


>>> pos = (n for n in mylist if n > 0) 
>>> pos 


党 最 简单 的 方法 是 使 用 列表 推导 式 〈list comprehension ). fii] 


如 果 原 始 输入 非常 大 的 话 ， 这 么 做 可 能 会 产生 一 个 


那么 可 以 使 用 生成 器 表达 式 通过 迭代 的 方 


<generator object <genexpr> at 0x1006a0eb0> 


>>> for x in pos: 


print (x) 


AS SH is E BA E SES T8] ECL s TE PIA 


导 式 或 生成 器 表达 式 中 。 比 如 ， 假 设 筛选 


过 程 涉 及 异常 处 理 或 者 其 他 一 些 复 杂 的 细节 。 基 于 此 ， 可 以 将 处 理 筛选 逻辑 的 代码 放 
到 单独 的 函数 中 ， 然 后 使 用 内 建 的 filter0 函 数 处 理 。 示 例如 下 : 


values = ['1', '2', 'N/A', 
def is int(val): 
try: 
x = int(val) 
return True 
except ValueError: 


return False 


ivals = list(filter(is int, values) ) 
print (ivals) 
# Outputs ['1', 


!'5!'] 
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filterO 创 建 了 一 个 和 迭代 器 , 因此 如 果 我 们 想 要 的 是 列表 形式 的 结果 , 请 确保 加 上 了 list(), 
就 像 示例 中 那样 。 


1.16.3 讨论 


列表 推导 式 和 生成 器 表达 式 通常 是 用 来 筛选 数据 的 最 简单 和 最 直接 的 方式 。 此 外 ， 它 
们 也 具有 同时 对 数据 做 转换 的 能 力 。 例 如 : 


>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 

>>> import math 

>>> [math.sqrt(n) for n in mylist if n > 0] 

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772] 
>>> 


AT EB, AACE TMAH A a ERI, MALE. BEAD, 
除了 要 找到 正 整数 之 外 ， 我 们 也 许 还 希望 在 指定 的 范围 内 将 不 满足 要 求 的 值 替 换 掉 。 
通常 ， 这 可 以 通过 将 筛选 条 件 移 到 一 个 条 件 表 达 式 中 来 轻松 实现 。 就 像 下面 这 样 : 


>>> clip neg = [n if n > 0 else 0 for n in mylist] 


>>> clip neg 

[Ld 95 0:07 307 230] 

>>> clip pos = [n if n < 0 else 0 for n in mylist] 
>>> clip pos 

[05 Op Sy: 0," 97, Oy 0, -1] 

>>> 


男 一 个 值得 一 提 的 第 选 工 具 是 itertools.compress()， 它 接受 一 个 可 迭代 对 象 以 及 一 个 布 
尔 选择 器 序 列 作为 输入 。 输 出 时 ， 它 会 给 出 所 有 在 相应 的 布尔 选择 器 中 为 True 的 可 和 迭 
代 对 象 元 素 。 如 果 想 把 对 一 个 序列 的 筛选 结果 施加 到 另 一 个 相关 的 序列 上 时 ， 这 就 会 
非常 有 用 。 例 如 ,假设 有 以 下 两 列 数据 : 


addresses = [ 
'5412 N CLARK', 
'5148 N CLARK', 
'5800 E 58TH', 
'2122 N CLARK' 
!5645 RAVENSWOOD', 
‘1060 W ADDISON', 
'4801 N BROADWAY', 
'1039 W GRANVILLE', 


] 


counts = [ 0, 3, 10, 4, 1, 7, 6, 1] 


现在 我 们 想 构建 一 个 地 址 列表 ， 其 中 相应 的 count 值 要 大 于 5。 下 面 是 我 们 可 以 尝试 的 
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方法 : 
>>> from itertools import compress 
>>> more5 = [n > 5 for n in counts] 
>>> more5 
[False, False, True, False, False, True, True, False] 
>>> list(compress(addresses, more5)) 
['5800 E 58TH', '4801 BROADWAY', '1039 W GRANVILLE'] 
>>> 


这 里 的 关键 在 于 首先 创建 一 个 布尔 序列 ， 用 来 表示 哪个 元 素 可 满足 我 们 的 条 件 。 然 后 
compressO 函 数 挑选 出 满足 布尔 值 为 True 的 相应 元 素 。 

同 filter0 函 数 一 样 ， 正 常情 况 下 compressO 会 返回 一 个 迭代 如 。 因 此 ， 如 果 需 要 的 话 ， 
得 使 用 list0 将 结果 转 为 列表 。 


1.17 ”从 字典 中 提取 子 集 


1.17.1 ”问题 
我 们 想 创建 一 个 字典 ， 其 本 身 是 另 一 个 字典 


117.2 ”解决 方案 


n 


um 
出 
pi 
o 


利用 字典 推导 式 (dictionary comprehension ) 可 轻松 解决 。 例 如 : 
prices = ( 
'ACME': 45.23, 
'AAPL': 612.78, 
"IBM't 205.55, 
HBOT: STU, 
"EB'S.10, 75 


# Make a dictionary of all prices over 200 
pl = ( key:value for key, value in prices.items() if value > 200 } 


# Make a dictionary of tech stocks 
tech names = ( 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = ( key:value for key,value in prices.items() if key in tech names } 


1.47.8 讨论 
大 部 分 可 以 用 字典 推导 式 解决 的 问题 也 可 以 通过 创建 元 组 序列 然后 将 它们 传 给 dictO ER 
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数 来 完成 。 例 如 : 

pl = dict((key, value) for key, value in prices.items() if value > 200) 
但 是 字典 推导 式 的 方案 更 加 清晰 ， 而 且 实 际 运行 起 来 也 要 快 很 多 ( 以 本 例 中 的 字典 
prices 来 测试 ， 效 率 要 高 2 倍 多 )。 
有 时 候 会 有 多 种 方法 来 完成 同一 件 事 情 。 例 如 ， 第 二 个 例子 还 可 以 重 写成 

# Make a dictionary of tech stocks 

tech names = ( 'AAPL', 'IBM', 'HPQ', 'MSFT' } 

p2 - ( key:prices[key] for key in prices.keys() & tech names ] 
但 是 ， 计 时 测试 表明 这 种 解决 方案 几乎 要 比 第 一 种 慢 上 1.6 倍 。 如 果 需 要 考虑 性 能 因 
素 , 那么 通常 都 需要 花 一 点 时 间 来 研究 它 。 有 关 计 时 和 性 能 分 析 方 面 的 信息 ， 请 参见 
14.13 节 。 


1.18 将 名 称 上 映射 到 序列 的 元 素 中 


1.18.1 问题 

我 们 的 代码 是 通过 位 置 ( 即 索 引 ， 或 下 标 ) 来 访问 列表 或 元 组 的 ， 但 有 时 候 这 会 使 代 
码 变 得 有 些 难 以 阅读 。 我 们 希望 可 以 通过 名 称 来 访问 元 素 ， 以 此 减少 结构 中 对 位 置 的 
依赖 性 。 


1.18.2 解决 方案 

相 比 普通 的 元 组 ，collections.namedtuple0O ( 命名 元 组 ) 只 增加 了 极 小 的 开销 就 提供 了 这 
些 便利 。 实 际 上 collections.namedtuple0 是 一 个 工厂 方法 ， 它 返回 的 是 Python 中 标准 元 
组 类 型 的 子 类 。 我 们 提供 给 它 一 个 类 型 名 称 以 及 相应 的 字段 ， 它 就 返回 一 个 可 实例 化 
的 类 、 为 你 已 经 定义 好 的 字段 传人 值 等 。 例 如 : 


>>> from collections import namedtuple 


>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined']) 
>>> sub = Subscriber('jonesy@example.com', '2012-10-19') 

>>> sub 

Subscriber (addr='jonesy@example.com', joined='2012-10-19' 

>>> sub.addr 

'! jonesy&example.com' 

>>> sub.joined 

"2012-10-19! 

>>> 


m 


管 namedtuple 的 实例 看 起 来 就 像 一 个 普通 的 类 实例 , 但 它 的 实例 与 普通 的 元 组 是 可 互 换 
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HJ, T HLSCREUTA WEGEIUCZR T SC RRP TE, (M285 Cindexing) 和 分 解 ( unpacking )。 
比如 : 


>>> len(sub) 

2 

>>> addr, joined = sub 
>>> addr 

' jonesyGexample.com' 
>>> joined 
'2012-10-19 
>>> 


fo JOSEY EEE FE PHARE ee hl CR LIRE. BLA, nS OR FE 
调用 中 得 到 一 个 大 型 的 元 组 列表 ， 而 且 通 过 元 素 的 位 置 来 访问 数据 ， 那 么 假如 在 表单 
中 新 增 了 一 列 数据 ， 那 么 代码 就 会 骨 演 。 但 如 果 首 先 将 返回 的 元 组 转型 为 命名 元 组 ， 
就 不 会 出 现 问 题 。 


为 了 说 明 这 个 问题 ， 下 面 有 一 些 使 用 普通 元 组 的 代码 : 


def compute cost (records): 
total = 0.0 
for rec in records: 
total += rec[1] * rec[2] 
return total 


通过 位 置 来 引用 元 素 常 常 使 得 代码 的 表达 力 不 够 强 ， 而 且 也 很 依赖 于 记录 的 具体 结构 。 
下 面 是 使 用 命名 元 组 的 版 本 : 


from collections import namedtuple 


Stock = namedtuple('Stock', ['name', 'shares', 'price']) 
def compute cost (records): 
total = 0.0 
for rec in records: 
S = Stock(*rec) 
total += s.shares * s.price 
return total 


当然 ， 如 果 示 例 中 的 records 序列 已 经 包含 了 这 样 的 实例 ,那么 可 以 避免 显 式 地 将 记录 
转换 为 Stock 命名 元 组 。 


1.18.3 ”讨论 
namedtuple 的 一 种 可 能 用 法 是 作为 字典 的 蔡 代 , 后 者 需要 更 多 的 空间 来 存储 。 因 此 ,如 


II 


”作者 的 意思 是 如 果 records 中 的 元 素 是 某 个 类 的 实例 ， 且 已 经 有 了 shares 和 price 这 样 的 属性 ， 那 就 可 以 
生 接 通过 属性 名 来 访问 ， 不 需要 通过 位 置 来 引用 ， 也 就 没有 必要 再 转换 成 命名 元 组 了 。 译 者 注 
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果 要 构建 涉及 字典 的 大 型 数据 结构 ， 使 用 namedtuple 会 更 加 高 效 。 但 是 请 注意 ， 与 字 
典 不 同 的 是 ， dos 是 不 可 变 的 (immutable )。 例 如 : 


»»» s = Stock('ACME', 100, 123.45) 
>>> s 
Stock (name='ACME', shares=100, price=123.45) 
>>> s.shares = 75 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 
>>> 


如 果 需 要 修改 任何 属性 ， 可 以 通过 使 用 namedtuple 实例 的 replace() 方 法 来 实现 。 该 方 
法 会 创建 一 个 全 新 的 命名 元 组 ， 并 对 相应 的 值 做 替换 。 示 例如 下 : 


>>> s = s. replace(shares-75) 

>>> s 

Stock(name-'ACME', shares=75, price=123.45) 
>>> 


_Teplace( 方 法 有 一 个 微妙 的 用 途 ， 那 就 是 它 可 以 作为 一 种 简便 的 方法 填充 具有 可 选 或 
缺失 字段 的 命名 元 组 。 要 做 到 这 点 ， 首 先 创建 一 个 包含 默认 值 的 “原型 ”元 组 ， 然 后 
使 用 replace() 方 法 创建 一 个 新 的 实例 ， 把 相应 的 值 蔡 换 掉 。 示 例如 下 : 


from collections import namedtuple 


ji 


Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time']) 


# Create a prototype instance 
stock prototype = Stock('', 0, 0.0, None, None) 


# Function to convert a dictionary to a Stock 
def dict to stock(s): 


return stock prototype. replace(**s) 


让 我 们 演示 一 下 上 面 的 代码 是 如 何 工作 的 : 


>>> a = ('name': 'ACME', 'shares': 100, 'price': 123.45} 

>>> dict to stock(a) 

Stock(name-'ACME', shares=100, price=123.45, date=None, time=None) 

>>> b = ('name': 'ACME', 'shares': 100, 'price': 123.45, 'date': '12/17/2012'} 
>>> dict to stock (b) 
Stock(name-'ACME', shares-100, price-123.45, date-'12/17/2012', time-None) 
>>> 


最 后 ， 也 是 相当 重要 的 是 ， 应 该 要 注意 如 果 我 们 的 目标 是 定义 一 个 高 效 的 数据 结构 ， 
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而 且 将 来 会 修改 各 种 实例 属性 ， 那 么 使 用 namedtuple 并 不 是 最 佳 选 择 。 相 反 ， 可 以 考 


虑 定义 一 个 使 用 slots 属性 的 类 (参见 8.4 节 )。 


1.19 同时 对 数据 做 转换 和 换算 


1.49.1 B 


我 们 需要 调用 一 个 换算 (reduction) 函数 (例如 sum0、min0、max0 )， 但 首先 得 对 数 


据 做 转换 或 筛选 。 
1.19.2 ”解决 方案 


有 一 种 非常 优雅 的 方式 能 将 数据 换算 和 转换 结合 在 一 起 一 一 在 函数 参数 中 使 用 生成 器 


表达 式 。 例 如 ， 如 果 想 计算 平方 和 ， 可 以 像 下 面 这 样 做 : 


nums = [1, 2, 3, 4, 5] 


S = sum(x * x for x in nums) 


文 里 还 有 一 些 其 他 的 例子 : 


# Determine if any .py files exist in a directory 


import os 

files = os.listdir('dirname') 

if any(name.endswith('.py') for name in files): 
print('There be python!') 

else: 
print('Sorry, no python.') 


# Output a tuple as CSV 
S = ('ACME', 50, 123.45) 
print(','.join(str(x) for x in s)) 


# Data reduction across fields of a data structure 
portfolio = [ 

('name':'GOOG', 'shares': 50), 

('name':'YHOO', 'shares': 75), 

('name':'AOL', 'shares': 20], 

('name':'SCOX', 'shares': 65} 
] 


min shares - min(s['shares'] for s in portfolio) 


1.49.3 讨论 


这 种 解决 方案 展示 了 当 把 生成 器 表达 式 作为 函数 的 单独 参数 时 在 语法 上 的 一 些微 妙 之 
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Mb CB, 不必 重 复 使 用 括号 )。 比 如 ， 下 面 这 两 行 代 码 表示 的 是 同一 个 意思 : 


s = sum((x * x for x in nums)) # Pass generator-expr as argument 


S = sum(x * x for x in nums) # More elegant syntax 
比 起 首先 创建 一 个 临时 的 列表 ， 使 用 生成 器 做 参数 通常 是 更 为 高 效 和 优雅 的 方式 。 例 
如 ， 如 果 不 使 用 生成 器 表达 式 ， 可 能 会 考虑 下 面 这 种 实现 : 


nums = [1, 2, 3, 4, 5 


S = sum([x * x for x in nums]) 


这 也 能 工作 ， 但 这 引入 了 一 个 额外 的 步骤 而 且 创 建 了 额外 的 列表 。 对 于 这 人 么 小 的 一 个 
列表 ,这 根本 就 无 关 紧 要 , 但 是 如 果 nums 非常 巨大 , 那么 就 会 创建 一 个 庞大 的 临时 数 
据 结构 ， 而 且 只 用 一 次 就 要 丢弃 。 基 于 生成 右 的 解决 方案 可 以 以 迭代 的 方式 转换 数据 ， 
因此 在 内 存 使 用 上 要 高 效 得 多 。 

某 些 特定 的 换算 函数 比如 min0 和 max0 都 可 接受 一 个 key 参数 ， 当 可 能 倾向 于 使 用 生 
成 器 时 会 很 有 帮助 。 例 如 在 portfolio 的 例子 中 ， 也 许 会 考虑 下 面 这 种 替代 方案 : 


# Original: Returns 20 


min shares - min(s['shares'] for s in portfolio) 


# Alternative: Returns {'name': 'AOL', 'shares': 20} 
min shares = min(portfolio, key-lambda s: s['shares']) 


20 ”将 多 个 映射 合并 为 单个 映射 


1.20.1 问题 
我 们 有 多 个 字典 或 映射 ， 想 在 逻辑 上 将 它们 合并 为 一 个 单独 的 映射 结构 ， 以 此 执行 某 
些 特定 的 操作 ， 比 如 查找 值 或 检查 键 是 否 存在 。 


1.20.2 ”解决 方案 


假设 有 两 个 字典 : 


— 


a Peed Mgrs 3) } 
b (PY Dy tio) 
现在 假设 想 执 行 查找 操作 ， 我 们 必须 得 检查 这 两 个 字典 (例如 ， 先 在 a 中 查找 ， 如 果 
没 找到 再 去 b 中 查找 )。 一 种 简单 的 方法 是 利用 collections 模块 中 的 ChainMap 类 来 解 
决 这 个 问题 。 例 如 : 


from collections import ChainMap 


c = ChainMap (a,b) 
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print(c['x']) £ Outputs 1 (from a) 
print(c['y']) £ Outputs 2 (from b) 
print(c['z']) # Outputs 3 (from a) 


1.20.3 讨论 


ChainMap 可 接受 多 个 映射 然后 在 逻辑 上 使 它们 表现 为 一 个 单独 的 映射 结构 。 但 是 ， 这 


些 映 射 在 字面 上 并 不 会 合并 在 一 起 。 相 反 ，ChainMap 只 是 简单 地 维护 一 个 记录 底层 映 
射 关系 的 列表 ， 然 后 重 定义 常见 的 字典 操作 来 扫描 这 个 列表 。 大 部 分 的 操作 都 能 正常 


工作 。 例 如 : 


>>> len(c) 

3 

>>> list(c.keys()) 
['x', 'y', 'z'] 
>>> list(c.values()) 
[15 253] 

>>> 


如 果 有 重复 的 键 ， 那 么 这 里 会 采用 第 一 个 映射 中 所 对 应 的 值 。 因 此 ， 例 子 中 的 e[z 18 


是 引用 字典 a 中 的 值 ， 而 不 是 字典 b 中 的 值 。 
修改 映射 的 操作 总 是 会 作用 在 列 出 的 第 一 个 映射 结构 上 。 例 如 : 


>>> c['z'] = 10 
>>> c['w'] = 40 
>>> del c['x'] 

>>> a 

Mis 40. Vale LO}, 
>>> del c['y'] 


Traceback (most recent call last): 


KeyError: "Key not found in the first mapping: 'y'" 
>>> 


ChainMap 与 带 有 作用 域 的 值 ， 比 如 编程 语言 中 的 变量 ( 即 全 局 变量 、 局 部 变量 等 ) 一 
起 工作 时 特别 有 用 。 实 际 上 这 里 有 一 些 方法 使 这 个 过 程 变 得 简单 ; 


>>> values = ChainMap() 

>>> values['x'] = 1 

>>> # Add a new mapping 

>>> values = values.new child() 
>>> values['x'] = 2 

>>> # Add a new mapping 

>>> values = values.new child() 


>>> values['x'] = 3 


数据 结构 和 算法 35 


>>> values 
ChainMap(('x': 3), ('x': 2), ('x': 1}) 
>>> values['x'] 


>>> # Discard last mapping 
>>> values = values.parents 
>>> values['x'] 


>>> # Discard last mapping 
>>> values = values.parents 
>>> values['x'] 


>>> values 
ChainMap(('x': 1}) 
>>> 


作为 ChainMap WET, BAA HESS AAS HERI update0 方 法 将 多 个 字典 合并 


在 一 起 。 例 如 : 
>> a= {'x': 1, ' 
>>> b= {ly': 2, ' 
>>> merged = dict (b) 
>>> merged.update (a) 
>>> merged['x'] 


>>> merged['y'] 


>>> merged['z'] 


这 么 做 行 得 通 ， 但 这 需要 单独 构建 一 个 完整 的 字典 对 象 (或 者 修改 其 中 现 有 的 一 个 字 
典 ， 这 就 破坏 了 原始 数据 )。 此 外 ， 如 果 其 中 任何 一 个 原始 字典 做 了 修改 ， 这 个 改变 都 


不 会 反应 到 合并 后 的 字典 中 。 例 如 : 


>>> a['x'] = 13 
>>> merged['x'] 
1 


而 ChainMap 使 用 的 就 是 原始 的 字典 , 因此 它 不 会 产生 这 种 令 人 不 悦 的 行为 。 示 例如 下 : 


aoe BS KS de Te ES} 
>>> b= {'y': 2, 'z': 4 } 
>>> merged = ChainMap(a, b) 
>>> merged['x' 


>>> a['x'] = 42 
>>> merged['x' # Notice change to merged dicts 
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字符 串 和 文本 


无 论 是 解析 数据 还 是 产生 输出 ， 几 乎 每 一 个 有 实用 价值 的 程序 都 会 涉及 某 种 形式 的 文 
本 处 理 。 本 章 的 重点 放 在 有 关 文本 操作 的 常见 问题 上 ， 例 如 拆 分 字符 串 、 搜 索 、 蔡 换 、 
词法 分 析 以 及 解析 。 许 多 任务 都 可 以 通过 内 建 的 字符 串 方 法 轻松 解决 。 但 是 ， 更 复杂 
的 操作 可 能 会 需要 用 到 正则 表达 式 或 者 创建 完整 的 解析 器 才能 得 到 解决 。 以 上 所 有 主 
题 本 章 都 有 涵盖 。 此 外 ， 本 草 还 提 到 了 一 些 同 Unicode 打交道 时 用 到 的 技巧 。 


2.1 针对 任意 多 的 分 隔 符 拆 分 字符 串 


2.1.1 问题 


我 们 需要 将 字符 串 拆 分 为 不 同 的 字段 ， 但 是 分 隔 符 〈 以 及 分 隔 符 之 间 的 空格 ) 在 整个 
字符 串 中 并 不 一 致 。 


24.2 ”解决 方案 

字符 串 对 象 的 split0 方 法 只 能 处 理 非常 简单 的 情况 ,而 且 不 支持 多 个 分 隔 符 ， 对 分 隔 符 

周围 可 能 存在 的 空格 也 无 能 为 力 。 当 需要 一 些 更 为 灵活 的 功能 时 ， 应 该 使 用 re.split() 

方法 : 
>>> line = 'asdf fjdk; afed, fjek,asdf, foo' 
>>> import re 


>>> re.split(r'[;,\s]\s*', line) 
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] 


2.4.8 讨论 
re.splitO 是 很 有 用 的 ， 因 为 可 以 为 分 隔 符 指定 多 个 模式 。 例 如 ， 在 上 面 的 解决 方案 中 ， 
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分 隔 符 可 以 是 逗号 、 分 号 或 者 是 空格 符 (后 面 可 跟着 任意 数量 的 额外 空格 )。 只 要 找到 
了 对 应 的 模式 ， 无 论 匹 配点 的 两 端 是 什么 字段 ， 整 个 匹配 的 结果 就 成 为 那个 分 隔 符 。 


最 终 得 到 的 结果 是 字段 列表 ， 同 str.split0 得 到 的 结果 一 样 。 


当 使 用 re.split0 时 ,需要 小 心 正 则 表达 式 模式 中 的 提 
了 括号 中 。 如 果 用 到 了 捕获 组 ， 那 么 匹配 的 文本 也 会 包含 在 最 终结 果 中 。 比 如 ， 看 看 


H3K7H (capture group ) 是 否 包 含 在 


Li 'fjek', Us 'asdf', bery 


下 面 的 结果 : 
>>> fields = re.split(r'(;|,|\s)\s*', line) 
>>> fields 
['asdf',-' *, FMfjdk'; Mey 'afed', 
>>> 


在 特定 的 上 下 文中 获取 到 分 隔 字 符 也 可 能 是 有 用 的 。 例 如 ， 也 许 稍 后 要 用 到 分 隔 字符 


来 改进 字符 串 的 输出 : 


>>> values = fields[::2] 


>>> delimiters = fields[1::2] + [''] 


>>> values 


['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] 


>>> delimiters 


[5 y Esto Ve Nie i fr p 
patens Ipsos, SIE 


>>> # Reform the line using the same delimiters 


»»» ''.join(vtd for v,d in zip(values, delimiters)) 


‘asdf fjdk;afed, fjek,asdf,foo' 
>>> 


如 果 不 想 在 结果 中 看 到 分 隔 字符 ， 但 仍然 想 用 括号 来 对 正则 表 j 


确保 用 的 是 非 捕获 组 ， 以 (?:…) 的 形式 指定 。 示 例如 下 : 


»»»re.split(r'(?:,|;|Ns) Vs*', line) 
['asdf','fjdk', 'afed', '£jek', 'asdf', 'foo'] 


>>> 


2.2 在 字符 串 的 开头 或 结尾 处 做 文本 匹配 


2.2.4 问题 


我 们 需要 在 字符 串 的 开头 或 结尾 处 按照 指定 的 文本 模式 做 检查 ， 例 如 检查 文件 的 扩展 


4. URL 协议 类 型 等 。 


2.2.2 ”解决 方案 
有 一 种 简单 的 方法 可 用 来 检查 


字符 


串 的 开头 或 结尾 ， 只 要 使 


HH] str.startswith() 和 
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strendswith() 方 法 就 可 以 了 。 示 例如 下 : 


>>> filename = 'spam.txt' 

>>> filename.endswith('.txt') 
True 
>>> filename.startswith('file:') 


False 

>>> url = 'http://www.python.org' 
>>> url.startswith('http:') 

True 

>>> 


如 果 需 要 同时 针对 多 个 选项 做 检查 ， 只 需 给 startswith() 和 endswithO 提 供 包含 可 能 选项 
的 元 组 即 可 : 


>>> import os 

>>> filenames = os.listdir('.') 

>>> filenames 

[ 'Makefile', 'foo.c', 'bar.py', 'spam.c', 'spam.h' ] 

>>> [name for name in filenames if name.endswith(('.c', '.h')) ] 
['foo.c', 'spam.c', 'spam.h' 

>>> any(name.endswith('.py') for name in filenames) 

True 

>>> 


i HUS S — MET : 


from urllib.request import urlopen 


def read data (name): 
if name.startswith(('http:', 'https:', 'ftp:')): 
return urlopen (name).read() 
else: 
with open(name) as f: 
return f.read() 


奇怪 的 是 ， 这 是 Python 中 需要 把 元 组 当成 输入 的 一 个 地 方 。 如 果 我 们 刚好 把 选项 指定 
在 了 列表 或 集合 中 ， 请 确保 首先 用 tuple0 将 它们 转换 成 元 组 。 示 例如 下 : 


>>> choices = ['http:', 'ftp:'] 
>>> url = 'http://www.python.org' 
>>> url.startswith (choices) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: startswith first arg must be str or a tuple of str, not list 
>>> url.startswith (tuple (choices) ) 


True 
>>> 
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2.2.8 讨论 
startswithO 和 endswith0 方 法 提供 了 一 种 非常 方便 的 方式 来 对 字符 串 的 前 级 和 后 级 做 基 
本 的 检查 。 类 似 的 操作 也 可 以 用 切片 来 完成 ， 但 是 那 种 方案 不 够 优雅 。 例 如 : 


>>> filename = 'spam.txt' 


>>> filename[-4:] == '.txt' 

True 

>>> url = 'http://www.python.org' 

>>> url[:5] == 'http:' or url[:6] == 'https:' or url[:4] == 'ftp:' 
True 

>>> 


可 能 我 们 也 比较 倾向 于 使 用 正则 表达 式 作为 替代 方案 。 例 如 : 


>>> import re 


>>> url = 'http://www.python.org' 

>>> re.match('http:|https:|ftp:', url) 
« sre.SRE Match object at 0x101253098> 
>>> 


这 也 行 得 通 , 但 是 通常 对 于 简单 的 匹配 来 说 有 些 过 于 重量 级 了 。 使 用 本 节 提 到 的 技术 
会 更 简单 ， 运 行 得 也 更 快 。 


最 后 但 同样 重要 的 是 ， 当 startswith0 和 endswith() 方 法 和 其 他 操作 ( 比如 常见 的 数据 整 
理 操作 ) 结合 起 来 时 效果 也 很 好 。 人 例如， 下面 的 语句 检查 目录 中 有 无 出 现 特定 的 文件 : 


if any(name.endswith(('.c', '.h')) forname inlistdir(dirname)): 


2.3 利用 Shell 通配符 做 字符 串 匹 配 


2.9.1 问题 


当 工作 在 UNIX Shell 下 时 ， 我 们 想 使 用 常见 的 通配符 模式 〈 即 ，*.py、Dat[0-9]*.csv 
等 ) 来 对 文本 做 匹配 。 


2.3.2 解决 方案 


fnmatch 模块 提供 了 
配 。 使 用 起 来 很 简单 : 
>>> from fnmatch import fnmatch, fnmatchcase 


>>> fnmatch('foo.txt', '*.txt') 
True 


可 用 来 执行 这 样 的 匹 
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>>> fnmatch('foo.txt', '?oo.txt' 

True 

>>> fnmatch('Dat45.csv', 'Dat[0-9]*') 

True 

>>> names = ['Datl.csv', 'Dat2.csv', 'config.ini', 'foo.py'] 
>>> [name for name in names if fnmatch(name, 'Dat*.csv')] 
['Datl.csv', 'Dat2.csv'] 

>>> 


一 般 来 说 ， 包 matchO 的 匹配 模式 所 采用 的 大 小 写 区 分 规则 和 底层 文件 系统 相同 〈 根据 
操作 系统 的 不 同 而 有 所 不 同 )。 例 如 : 


>>> # On OS X (Mac) 
>>> fnmatch('foo.txt', '*.TXT') 


False 


>>> # On Windows 

>>> fnmatch('foo.txt', '*.TXT') 
True 

>>> 


r 


如 果 这 个 区 别 对 我 们 而 言 很 重要 , 就 应 该 使 用 fnmatchcase0。 它 完全 根据 我 们 提供 的 大 
小 写 方式 来 匹配 : 


>>> fnmatchcase('foo.txt', '*.TXT') 


False 
>> 


T 


关于 这 些 函 数 , 一 个 常 被 忽略 的 特性 是 它们 在 处 理 非 文 件 名 式 的 字符 串 时 的 潜在 用 途 。 
例如 ,假设 有 一 组 街道 地 址 ， 就 像 这 样 : 


addresses = [ 
"5412 N CLARK ST', 
‘1060 W ADDISON ST', 
'1039 W GRANVILLE AVE', 
"2122 N CLARK ST', 
"4802 N BROADWAY', 


T 


] 


可 以 像 下 面 这 样 写 列表 推导 式 : 


>>> from fnmatch import fnmatchcase 

>>> [addr for addr in addresses if fnmatchcase(addr, '* ST')] 

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST'] 

>>> [addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*')] 
['5412 N CLARK ST'] 

>>> 
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2.9.8 讨论 
fnmatch 所 完成 的 匹配 操作 有 点 介 平 于 简单 的 字符 串 方法 和 全 功能 的 正则 表达 式 之 间 。 


如 果 只 是 试 着 在 处 理 数据 时 提供 一 种 简单 的 机 制 以 允许 使 用 通配符 ， 那 么 通常 这 都 是 
个 合理 的 解决 方案 。 
如 果实 际 上 是 想 编写 匹配 文件 名 的 代码 ， 那 应 该 使 用 glob 模块 来 完成 ， 请 参见 


5.13 节 。 


2.4 文本 模式 的 匹配 和 查找 


2.4.1 问题 
我 们 想 要 按照 特定 的 文本 模式 进行 匹配 或 查找 。 


2.4.2 ”解决 方案 
如 果 想 要 匹配 的 只 是 简单 的 文字 ， 那 么 通常 只 需要 用 基本 的 字符 串 方 法 就 可 以 了 ， 比 
如 str.find()、str.endswith()、str.startswithO 或 类 似 的 函数 。 示 例如 下 : 


>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> # Exact match 
>>> text == 'yeah' 


False 


>>> # Match at start or end 
>>> text.startswith('yeah!') 
True 

>>> text.endswith('no') 


False 


>>> # Search for the location of the first occurrence 
>>> text.find('no') 

10 

>>> 


对 于 更 为 复杂 的 匹配 则 需要 使 用 正则 表达 式 以 及 re 模块 。 为 了 说 明 使 用 正则 表达 式 的 


基 


本 流程 ， 假 设 我 们 想 匹 配 以 数字 形式 构成 的 日 期 ， 比 如 “1127/2012”。 示 例如 下 : 


>>> textl = '11/27/2012' 
>>> text2 = 'Nov 27, 2012' 
>>> 


>>> import re 
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>>> # Simple matching: \d+ means match one or more digits 
>>> if re.match(r'\d+/\d+/\d+', textl): 


print('yes' 
. else: 
print('no' 
yes 
>>> if re.match(r'\d+/\d+/\dt+', text2): 
print('yes') 
. else: 
. print('no' 
no 
>>> 
如 果 打 算 针 对 同一 种 模式 做 多 次 匹配 ， 那么 通常 会 先 将 正则 表达 式 模式 预 编译 成 一 个 


模式 对 象 。 例 如 : 


>>> datepat = re.compile(r'\d+/\d+/\d+') 
>>> if datepat.match(textl): 
print('yes' 
. else: 


print('no') 


yes 
>>> if datepat.match(text2) : 
print('yes') 
. else: 
print('no') 


no 
>>> 


match() 方 法 总 是 尝试 在 字符 串 的 开头 找到 匹配 项 。 如 果 想 针对 整个 文本 搜索 出 所 有 的 
匹配 项 ， 那 么 就 应 该 使 用 findall0 方 法 。 例 如 : 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' 
>>> datepat.findall (text) 

['11/27/2012', '3/13/2013'] 

>>> 


N I 


当 定 义 正则 表达 式 时 ， 我 们 常会 将 部 分 模式 用 括号 包 起 来 的 方式 引入 捕获 


>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)') 
>>> 


。 例 如 : 


捕获 组 通常 能 简化 后 续 对 匹配 文本 的 处 理 ， 因 为 每 个 组 的 内 容 都 可 以 单独 提取 出 来 。 
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例如 : 


>>> m = datepat.match('11/27/2012') 
>>> m 


« sre.SRE Match object at 0x1005d2750> 
>>> # Extract the contents of each group 
>>> m.group (0) 

'11/27/2012' 

>>> m.group (1) 

M4! 

>>> m.group (2) 

127! 

>>> m.group(3) 

'2012' 

>>> m.groups() 

(Ur apt. $2012") 

>>> month, day, year = m.groups() 

>>> 


>>> # Find all matches (notice splitting into tuples) 

>>> text 

'Today is 11/27/2012. PyCon starts 3/13/2013.' 

>>> datepat.findall (text) 

EC AZT 520127), 031, 131,4 2013") 

>>> for month, day, year in datepat.findall (text): 
print('{}-{}-{}'.format(year, month, day) ) 


2012-11-27 
2013-3-13 
>>> 


findall0 方 法 搜索 整个 文本 并 找 出 所 有 的 匹配 项 然后 将 它们 以 列表 的 形式 返回 。 如 果 想 
以 迭代 的 方式 找 出 匹配 项 ， 可 以 使 用 finditer(0) 方 法 。 示 例如 下 : 


>>> for m in datepat.finditer(text): 


print (m.groups()) 


("11', '27', '2012') 
[So Pie E2013) 
>>> 


24.3 讨论 
有 关 正 则 表达 式 的 基本 理论 教学 超出 了 本 书 的 范围 。 但 是 ， 本 节 向 您 展示 了 利用 re 模 
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块 来 对 文本 做 匹配 和 搜索 的 基础 。 基 本 功能 是 首先 用 re.compile0 对 模式 进行 编译 ， 然 
后 使 用 像 matchO0 、findall0 或 finditer0 这 样 的 方法 做 匹配 和 搜索 。 
当 指 定 模式 时 我 们 通常 会 使 用 原始 字符 串 ， 比 如 rQd+)/Qd+)/Qd+)'。 这 样 的 字符 串 不 会 
对 反 斜 线 字符 转 义 ， 这 在 正则 表达 式 上 下 文中 会 很 有 有 用。 否则 ， 我 们 需要 用 双 反 和 斜 线 
来 表示 一 个 单独 的 N， 例 如 'Q(\d+)/Q\d+)/Qd+)'。 
请 注意 match() 方 法 只 会 检查 字符 串 的 开头 。 有 可 能 出 现 匹配 的 结果 并 不 是 你 想 要 的 情 
D. 例如 : 

»»» m - datepat.match('11/27/2012abcdef') 

>>> m 

<_sre.SRE Match object at 0x1005d27e8> 

>>> m.group () 


"11727/2012" 
>>> 


如 果 想 要 精确 匹配 ， 请 确保 在 模式 中 包含 一 个 结束 标记 〈$ )， 示 例如 下 : 


>>> datepat = re.compile(r' (\d+) /(\d+)/(\d+)$"') 
>>> datepat.match('11/27/2012abcdef' 

>>> datepat.match('11/27/2012') 

« sre.SRE Match object at 0x1005d2750> 

>>> 


最 后 ， 如 果 只 是 想 执 行 简单 的 文本 匹配 和 搜索 操作 ， 通 常 可 以 省 略 编译 步骤 ， 直 接 使 
Hi re 模块 中 的 函数 即 可 。 例 如 : 


>>> re.findall(r'(Md*)/(Nd*) / (Nd4) ', text) 
[40115, 7274,. "204219, Po Ma AQ LS 3] 
>>> 


请 注意 ， 如 果 打 算 执行 很 多 匹配 或 查找 操作 的 话 ， 通 常 需 要 先 将 模式 编译 然后 再 重复 
使 用 。 模 块 级 的 函数 会 对 最 近 编 译 过 的 模式 做 缓存 处 理 ， 因 此 这 里 并 不 会 有 巨大 的 性 
能 差异 。 但 是 使 用 自己 编译 过 的 模式 会 省 下 一 些 查 找 步 又 和 额外 的 处 理 。 


2.5 查找 和 替换 文本 


2.5.1 问题 
我 们 想 对 字符 串 中 的 文本 做 查找 和 替换 。 


2.5.2 解决 方案 
对 于 简单 的 文本 模式 ， 使 用 strreplace0 即 可 。 例 如 : 
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>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> text.replace('yeah', 'yep') 
'yep, but no, but yep, but no, but yep' 
>>> 


针对 更 为 复杂 的 模式 ， 可 以 使 用 re 模块 中 的 sub0 函 数 / 方 法 。 为 了 说 明 如 何 使 用 , 假设 


我 们 想 把 日 期 格式 从 “11/27/2012” 改 写 为 “2012-11-27”。 示 例如 下 : 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' 
>>> import re 
>>> re.sub(r! (\dt+) /(\d+) /(\d+)', r'\3-\1-\2', text) 
"Today is 2012-11-27. PyCon starts 2013-3-13.' 

>>> 


sub() 的 第 1 个 参数 是 要 匹配 的 模式 , 第 2 个 参数 是 要 蔡 换 上 的 模式 。 类 似 “3”" 这 样 的 反 


斜 线 加 数字 的 符号 代表 着 模式 中 捕获 组 的 数量 。 


如 果 打 算 用 相同 的 模式 执行 重复 替换 ， 可 以 考虑 先 将 模式 编译 以 获得 更 好 的 性 能 。 示 


例如 下 : 


>>> import re 

>>> datepat = re.compile(r' (Ad*) / (N34) /(\d+) ') 
>>> datepat.sub(r'\3-\1-\2', text) 

"Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> 


对 于 更 加 复杂 的 情况 ， 可 以 指定 一 个 替换 回调 函数 。 示 例如 下 : 


>>> from calendar import month abbr 


>>> def change date (m): 
mon name = month abbr[int (m.group(1))] 
return '{} {} {}'.format(m.group(2), mon name, m.group(3)) 


>>> datepat.sub(change date, text) 
'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' 
>>> 


n 


提取 匹配 中 特定 的 部 分 。 这 个 函数 应 该 返回 蔡 换 后 的 文本 。 


替换 回调 函数 的 输入 参数 是 一 个 匹配 对 象 ， 由 match0 或 find0 返 回 。 用 .group() 方 法 来 


除了 得 到 替换 后 的 文本 外 ， 如 果 还 想 知 道 一 共 完 成 了 多 少 次 替换 ， 可 以 使 用 re.subnO。 


例如 : 


>>> newtext, n = datepat.subn(r'\3-\1-\2', text) 
>>> newtext 
'Today is 2012-11-27. PyCon starts 2013-3-13.' 
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2.5.8 讨论 


除了 以 上 展示 的 sub0 调 用 之 外 ， 关 于 正则 表达 式 的 查找 和 替换 并 没有 什么 更 多 可 说 的 
了 。 最 有 技巧 性 的 地 方 在 于 指定 正则 表达 式 模 式 一 一 这 个 最 好 还 是 留 给 读者 自己 去 练 


习 吧 。 


2.6 ”以 不 区 分 大 小 与 的 方式 对 文本 做 查找 和 替换 


2.6.1 问题 


我 们 需要 以 不 区 分 大 小 写 的 方式 在 文本 中 进行 查找 ， 可 能 还 需要 做 替换 。 


2.6.2 ”解决 方案 
要 进行 不 区 分 大 小 写 的 文本 操作 ， 我 们 需要 使 用 re 模块 并 日 对 各 种 操作 都 要 加 上 


re IGNORECASE 标记 。 例 如 : 


>>> text = 'UPPER PYTHON, lower python, Mixed Python' 
>>> re.findall('python', text, flags-re.IGNORECASE) 
['PYTHON', 'python', 'Python'] 

>>> re.sub('python', 'snake', text, flags-re.IGNORECASE) 


'UPPER snake, lower snake, Mixed snake' 


>>> 


上 面 这 个 例子 揭示 


了 一 种 局 限 ,， 那 就 是 待 蔡 换 的 文本 与 匹配 的 文本 大 小 写 并 不 吻合 。 


如 果 想 修正 这 个 问题 ， 需 要 用 到 一 个 支撑 函数 (support function )， 示 例如 下 : 


def matchcase (word): 


def replace (m): 


text = m.group() 


if text. 


isupper(): 


return word.upper( 


elif text.islower(): 


return word.lower() 


elif text[0].isupper(): 


return word.capitalize() 


else: 


return word 


return replace 


下 面 是 使 用 这 个 函数 的 例子 : 
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>>> re.sub('python', matchcase('snake'), text, flags-re.IGNORECASE) 
'UPPER SNAKE, lower snake, Mixed Snake' 
>>> 


2.6.3 讨论 

对 于 简单 的 情况 ,只 需 加 上 re. IGNORECASE 标记 就 足以 进行 不 区 分 大 小 写 的 匹配 操作 
了 。 但 请 注意 的 是 这 对 于 某 些 涉及 大 写 转换 (case folding ) 的 Unicode 匹配 来 说 可 能 是 
不 够 的 。 具 体 细节 请 参见 2.10 节 。 


2.7 ”定义 实现 最 短 匹 配 的 正则 表达 式 


2.7.1 问题 
我 们 正在 尝试 用 正则 表达 式 对 文本 模式 做 匹配 ， 但 识别 出 来 的 是 最 长 的 可 能 匹配 。 相 
反 ， 我 们 想 将 其 修改 为 找 出 最 短 的 可 能 匹配 。 


2.7.2 解决 方案 
这 个 问题 通常 会 在 匹配 的 文本 被 一 对 开始 和 结束 分 隔 符 包 起 来 的 时 候 出 现 (例如 带 引 
号 的 字符 串 )。 为 了 说 明 这 个 问题 ， 请 看 下 面 的 例子 : 

>>> str pat = re.compile(r'\"(.*)\""') 


>>> textl = 'Computer says "no."' 
>>> str pat.findall(textl) 


['no.'] 

>>> text2 = 'Computer says "no." Phone says "yes."' 
>>> str pat.findall(text2) 

['no." Phone says "yes.'] 

>>> 


在 这 个 例子 中 ， 模 式 mV(.*)V" 尝 试 去 匹配 包含 在 引号 中 的 文本 。 但 是 ，* 操 作 符 在 正则 
表达 式 中 采用 的 是 贪心 策略 ， 所 以 匹配 过 程 是 基于 找 出 最 长 的 可 能 匹配 来 进行 的 。 因 
此 ， 在 text2 的 例子 中 ， 它 错误 地 匹配 成 2 个 被 引号 包围 的 字符 串 。 
要 解决 这 个 问题 ， 只 要 在 模式 中 的 * 操 作 符 后 加 上 ? 修饰 符 就 可 以 了 。 示 例如 下 : 


>>> str pat = re.compile(r'\"(.*?)\"") 
>>> str pat.findall(text2) 


['no.', 'yes.'] 


这 么 做 使 得 匹配 过 程 不 会 以 贪心 方式 进行 ， 也 就 会 产生 出 最 短 的 匹配 了 。 
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2.7.3 讨论 

本 节 提 到 了 一 个 当 编 写 含有 人 句点 (. ) 字符 的 正则 表达 式 时 常会 遇 到 的 问题 。 在 模式 中 ， 
句点 除了 换行 符 之 外 可 匹配 任意 字符 。 但 是 ， 如 果 以 开始 和 结束 文本 〈 比如 说 引号 ) 
将 句点 括 起 来 的 话 ， 在 匹配 过 程 中 将 尝试 找 出 最 长 的 可 能 匹配 结果 。 这 会 导致 匹配 时 
跳 过 多 个 开始 或 结束 文本 ， 而 将 它们 都 包含 在 最 长 的 匹配 中 。 在 * 或 + 后 添加 一 个 ? ， 

会 强制 将 匹配 算法 调整 为 寻找 最 短 的 可 能 匹配 。 


2.8 编写 多 行 模 式 的 正则 表达 式 


2.8.1 问题 
我 们 打算 用 正则 表达 式 对 一 段 文 本 块 做 匹配 ， 但 是 希望 在 进行 匹配 时 能 够 跨越 多 行 。 


2.8.2 ”解决 方案 
这 个 问题 一 般 出 现在 希望 使 用 句点 (. ) 来 匹配 任意 字符 ， 但 是 忘记 了 句点 并 不 能 匹配 
换行 符 时 。 例 如 ， 假 设想 匹配 C 语言 风格 的 注释 : 

>>> comment = re.compile(r'/\*(.*?)\*/' 

>>> textl = '/* this is a comment */' 


>>> text2 = '''/* this is a 
multiline comment */ 


>>> 

>>> comment. findall (text1) 
[' this is a comment '] 
>>> comment.findall(text2) 
[] 

>>> 


要 解决 这 个 问题 ， 可 以 添加 对 换行 符 的 支持 。 示 例如 下 : 


>>> comment = re.compile(r'/\*((?:.|\n)*?)\*/' 
»»» comment.findall(text2) 

[' this is aM multiline comment '] 

>>> 


在 这 个 模式 中 ，(?:.|m 指 定 了 一 个 非 捕获 组 〈( 即 ， 这 个 组 只 做 匹配 但 不 捕获 结果 ， 也 不 
会 分 配 组 号 )。 


2.8.3 讨论 
re.compile() 函 数 可 接受 一 个 有 用 的 标记 


re.DOTALL. 这 使 得 正则 表达 式 中 的 句点 (.) 
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可 以 匹配 所 有 的 字符 ， 也 包括 换行 符 。 例 如 : 


>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL) 
>>> comment. findall (text2) 


[' this is a\n multiline comment '] 


对 于 简单 的 情况 ， 使 用 re.DOTALL 标记 就 可 以 很 好 地 完成 工作 。 但 是 如 果 要 处 理 极其 

复杂 的 模式 ， 或 者 面 对 的 是 如 2.18 节 中 所 描述 的 为 了 做 分 词 (tokenizing ) 而 将 单独 的 
正则 表达 式 合 并 在 一 起 的 情况 ， 如 果 可 以 选择 的 话 ， 通 常 更 好 的 方法 是 定义 自己 的 正 
则 表达 式 模 式 ， 这 样 它 无 需 额 外 的 标记 也 能 正确 工作 。 


WM 


2.9 4% Unicode 文本 统一 表示 为 规范 形式 


2.9.1 问题 


我 们 正在 同 Unicode 字符 串 打 交道 ,但 需要 确保 所 有 的 字符 串 都 拥有 相同 的 底 
表示 。 


2.9.2 解决 方案 
在 Unicode 中 , 有 些 特 定 的 字符 可 以 被 表示 成 多 种 合法 的 代码 点 序列 。 为 了 说 明 这 个 问 
题 ， 请 看 下 面 的 示例 : 


>>> sl = 'Spicy Jalape\u00f10' 
>>> s2 = 'Spicy Jalapen\u03030' 
>>> sl 

"Spicy Jalapefio' 

>>> s2 

"Spicy Jalapefio' 

>>> sl == s2 

False 

>>> len(s1) 

14 

>>> len(s2) 

15 

>>> 


这 里 的 文本 “Spicy Jalapeio” 以 两 种 形式 呈现 。 第 一 种 使 用 的 是 字 P ( fully 
composed ) 形式 (U+00F1 )。 第 二 种 使 用 的 是 拉丁 字母 “nm”* 紧 跟着 一 个 “~”* 组 合 而 成 的 字 
fj (U+0303 )。 

对 于 一 个 比较 字符 串 的 程序 来 说 ， 同 一 个 文本 拥有 多 种 不 同 的 表示 形式 是 个 大 问题 。 
为 了 解决 这 个 问题 ， 应 该 先 将 文本 统一 表示 为 规范 形式 ， 这 可 以 通过 unicodedata 模块 
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>>> import unicodedata 

>>> tl = unicodedata.normal 
>>> t2 = unicodedata.normal 
>>> tl == t2 

True 

>>> print (ascii(t1)) 

"Spicy Jalape\xflo' 


>>> t3 = unicodedata.normal 
>>> t4 = unicodedata.normal 
>>> t3 == t4 

True 

>>> print (ascii(t3)) 

"Spicy Jalapen\u03030' 

>>> 


组 成 的 ( 即 ， 如 果 可 能 的 话 就 使 用 让 


符 应 该 是 能 完全 分 解 开 的 。 


ize('NFC', s1) 
ize('NFC', s2) 


ize('NFD', sl) 
ize('NFD', s2) 


Python 还 支持 NFKC 和 NFKD 的 规范 表示 形式 ， 它 们 为 处 理 特定 类 型 的 字符 增加 了 额 


外 的 兼容 功能 。 例 如 : 


>>> s = '\ufb01' # A single 
>>> s 

wry 

>>> unicodedata.normalize(' 
Vey! 


character 


NFD', s) 


# Notice how the combined letters are broken apart here 


>>> unicodedata.normalize(' 
bt 
>>> unicodedata.normalize(' 
Slee 


>>> 


2.9.3 讨论 


NFKD', s) 


NFKC', s) 


对 于 任何 需要 确保 以 规范 和 一 致 性 的 方式 处 理 Unicode 文本 的 程序 来 说 ,规范 化 都 是 重 
有 户 输入 时 接收 到 的 字符 串 时 ， 此 时 你 无 法 控制 字符 串 的 


要 的 一 部 分 。 尤 其 是 在 处 理 月 


在 对 文本 进行 过 滤 和 净化 时 ， 


规范 化 同样 


编码 形式 ， 那 么 规范 化 文本 的 表示 就 显得 更 为 重要 了 。 


由 占据 了 重要 的 部 分 。 例 如 ， 假 设想 从 某 些 
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文本 中 去 除 所 有 的 音符 标记 《〈 可 能 是 为 了 进行 搜索 或 匹配 ): 


>>> tl = unicodedata.normalize('NFD', s1) 

>>> ''.join(c for c in tl if not unicodedata.combining(c)) 
'Spicy Jalapeno' 

>>> 


最 后 一 个 例子 展示 了 unicodedata 模块 的 另 一 个 重要 功能 一 一 用 来 检测 字符 是 否 属于 某 
个 字符 类 别 。 使 用 工具 combiningO 函 数 可 对 字符 做 检查 ， 判 断 它 是 否 为 一 个 组 合 型 字 
符 。 这 个 模块 中 还 有 一 些 函 数 可 用 来 查找 字符 类 别 、 检 测 数字 字符 等 。 

很 显然 ，Unicode 是 一 个 庞大 的 主题 。 要 获得 更 多 有 关 规 范 化 文本 方面 的 参考 信息 ， 可 访问 
http;//www.unicode.org/fag/normalization.html, Ned Batchelder 也 在 他 的 网 站 http://nedbatchelder. 
com/text/unipain.html 上 对 Python 中 的 Unicode 处 理 给 出 了 优秀 的 示例 说 明 。 


2.10 用 正则 表达 式 处 理 Unicode 字符 


2.10.1 问题 
我 们 正在 用 正则 表达 式 处 理 文本 ， 但 是 需要 考虑 处 理 Unicode 字符 。 


2.10.2 解决 方案 


默认 情况 下 re 模块 已 经 对 某 些 Unicode 字符 类 型 有 了 基本 的 认识 。 例 如 ，\d 已 经 可 以 
匹配 任意 Unicode 数字 字符 了 : 


>>> import re 


>>> num = re.compile('\dt') 

>>> # ASCII digits 

>>> num.match('123') 

<_sre.SRE Match object at 0x1007d9ed0> 


>>> # Arabic digits 

>>> num.match('\u0661\u0662\u0663' 

« sre.SRE Match object at 0x101234030» 
>>> 


如 果 需 要 在 模式 字符 串 中 包含 指定 的 Unicode 字符 , 可 以 针对 Unicode 字符 使 用 转 义 序 
列 (例如 \uFFFF 或 \UFFFFFFF )。 比 如 ， 这 里 有 一 个 正则 表达 式 能 在 多 个 不 同 的 阿拉 伯 
代码 页 中 匹配 所 有 的 字符 : 


>>> arabic = re.compile('{[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+") 
>>> 


当 执 行 匹配 和 搜索 操作 时 , 一 个 好 主意 是 首先 将 所 有 的 文本 都 统一 表示 为 标准 形式 ( 见 
2.9 节 )。 但 是 ,同样 重要 的 是 需要 注意 一 些 特殊 情况 。 例 如 ， 当 不 区 分 大 小 写 的 匹配 


52 第 2 章 


和 大 写 转 换 (case folding ) 匹配 联合 起 来 时 ， 考 虑 会 出 现 什么 行为 : 


>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) 


>>> s = 'stra i! 
>>> pat.match (s) 


# Matches 


<_sre.SRE Match object at 0x10069d370> 


>>> pat.match(s.upper()) 


>>> s.upper () 
' STRASSE' 
>>> 


2.10.3 ”讨论 


# Doesn't match 
# Case folds 


把 Unicode 和 正则 表达 式 混 在 一 起 使 用 绝对 是 个 能 让 人 头痛 欲 裂 的 办 法 。 如 果真 的 要 这 公 


做 ， 应 该 考虑 安装 第 三 方 的 正则 表达 式 库 〈http:/pypi.python.org/pypiregex )， 这 些 第 三 方 


2.11 


2.11.1 问题 


库 针 对 Unicode 大 写 转换 提供 了 完整 的 支持 , 还 包含 其 他 各 种 有 趣 的 特性 , 包括 近似 匹配 。 


从 字符 串 中 去 挥 不 需要 的 字符 


我 们 想 在 字符 串 的 开始 、 结 尾 或 中 间 去 掉 不 需要 的 字符 ， 比 如 说 空格 符 。 


2.11.2 解决 方案 


strip() 方 法 可 用 来 从 字符 串 的 开始 和 结尾 处 去 掉 字 符 。lstrip0 和 rstrip0 可 分 别 从 左 或 从 
右 侧 开始 执行 去 除 字 符 的 操作 。 默 认 情况 下 这 些 方法 去 除 的 是 空格 符 ， 但 也 可 以 指定 


其 他 的 字符 。 例 如 : 


>>> # Whitespace stripping 


>>> s = ' hello world \n' 


>>> s.strip() 
"hello world' 
>>> s.lstrip() 
"hello world \n' 
>>> s.rstrip() 

' hello world' 
>>> 


>>> # Character stripping 


>>> t.lstrip('-') 
"hello=====!' 
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2.11.3 讨论 
当 我 们 读 取 并 整理 数据 以 待 稍 后 的 处 理 时 常常 会 用 到 这 类 strip0 方 法 。 例如 , 可 以 用 它 
们 来 去 掉 空格 、 移 除 引号 等 。 


需要 注意 的 是 ， 去 除 字符 的 操作 并 不 会 对 位 于 字符 串 中 间 的 任何 文本 起 作用 。 例 如 : 


>>> s = ' hello world \n' 
>>> s = s.strip() 

>>> s 

"hello world' 

>>> 


如 果 要 对 里 面 的 空格 执行 某 些 操作 , 应 该 使 用 其 他 技巧 ， 比 如 使 用 replace() 方 法 或 正则 
AE, p. 

>>> s.replace(' ', '') 

'helloworld' 

>>> import re 

>>> re.sub('\st', ' ', s) 

'hello world' 

>>> 
我 们 通常 会 遇 到 的 情况 是 将 去 除 字 符 的 操作 同 某 些 迭代 操作 结合 起 来 ， 比 如 说 从 文 伯 
中 读 取 文本 行 。 如 果 是 这 样 的 话 ， 那 就 到 了 生成 器 表达 式 大 显 身手 的 时 候 了 。 例 如 ; 


with open(filename) as f: 


E: 


lines = (line.strip() for line in f) 
for line in lines: 


这 里 ， 表 达 式 lines = (line.strip() for line in 的 作 用 是 完成 数据 的 转换 “。 它 很 高 效 ， 因 
为 这 里 并 没有 先 将 数据 读 取 到 任何 形式 的 临时 列表 中 。 它 只 是 创建 一 个 迭代 器 ， 在 所 
有 产生 出 的 文本 行 上 都 会 执行 strip 操作 。 
对 于 更 高 级 的 strip 操作 ， 应 该 转 而 使 用 translate0 方 法 。 请 参见 下 一 节 以 获得 进一步 的 细节 。 


2.12 文本 过 滤 和 清理 


2.12.1 问题 


某 些 无 聊 的 脚本 小 子 在 Web 页 面 表单 中 填 人 了 “pyth5a" 这 样 的 文本 ， 我 们 想 以 某 种 方 
式 将 其 清理 掉 。 


”把 原始 数据 中 每 一 行 开 头 和 结尾 处 的 空格 符 去 掉 ， 相 当 于 一 种 转换 处 理 。 一 一 译 者 注 
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2.12.2 ”解决 方案 
文本 过 滤 和 清理 所 涵盖 的 范围 非常 广泛 ， 


涉及 文本 解析 和 数据 处 理 方面 的 问题 。 在 非 


常 简单 的 层次 上 , 我 们 可 能 会 月 


in [HJ 


HAE 
本 转换 为 标准 形式 。 简 单 的 替换 操作 可 通过 strreplace0 或 re.subO KER, ENTER 


符 串 函数 (例如 strupper0 和 str.lower() ) 将 文 


放 在 移 除 或 修改 特定 的 字符 序列 上 。 也 可 以 利用 unicodedata.normalize() 来 规范 化 文本 ， 


如 2.9 节 所 示 。 


然而 我 们 可 能 想 更 进一步 。 比 方 说 也 许 想 清除 整个 范围 内 的 字符 ， 或 者 去 和 


EA 


H 符 标 志 o 


要 完成 这 些 任务 ， 可 以 使 用 常 被 忽视 的 str.translate0 方 法 。 为 了 说 明 其 用 法 ,假设 有 如 


H 


下 这 段 混乱 的 字符 串 : 


>>> s = 'python\fis\tawesome\r\n' 


一 个 小 型 的 转换 表 , 然后 使 用 translate() 方 法 : 


>>> s 
"python\x0cis\tawesome\r\n' 
>>> 
第 一 步 是 清理 空格 。 要 做 到 这 步 ， 先 建立 
>>> remap = ( 
ord('\t') 1 iy 
ord('\£') T m 
ord('\r') : None # Deleted 


=} 
>>> a = s.translate(remap) 
>>> a 


'python is awesome\n' 


>>> 
可 以 看 到 ， 类 似 \t 和 \f 这 样 的 空格 符 已 经 被 重 
完全 被 删除 掉 了 。 
可 以 利用 这 种 重新 映射 的 思想 进一步 构 寻 


Unicode 组 合 字符 都 去 掉 : 


>>> import unicodedata 
>>> import sys 
>>> cmb chrs = dict.fromkeys(c for c in 


新 映射 成 一 个 单独 的 空格 。 回 车 符 \r 已 经 


NL 


出 更 加 庞大 的 转换 表 。 例 如 ， 我 们 把 所 有 的 


range (sys.maxunicode) 


if unicodedata.combining (chr (c) ) 


>>> b = unicodedata.normalize('NFD', a) 
>>> b 

"python is awesome\n' 

>>> b.translate(cmb chrs) 

"python is awesome\n' 

>> 
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在 这 个 例子 中 ， 我 们 使 用 dict fomkeys(0 方 法 构建 了 一 个 将 每 个 Unicode 组 合 字符 都 映 
射 为 None 的 字典 。 
原始 输入 会 通过 unicodedata.normalize() 方 法 转换 为 分 离 形 式 ， 然 后 再 通过 translate() 方 
法 删除 所 有 的 重音 符号 。 我 们 也 可 以 利用 相似 的 技术 来 去 掉 其 他 类 型 的 字符 ( 例如 控 
制 字 符 )。 

下 面 来 看 另 一 个 例子 。 这 里 有 一 张 转换 表 将 所 有 的 Unicode 十 进 制 数字 字符 映射 为 它们 
对 应 的 ASCII 版 本 : 


>>> digitmap = ( c: ord('0') + unicodedata.digit (chr(c)) 


for c in range(sys.maxunicode) 
if unicodedata.category(chr(c)) == 'Nd' } 


>>> len (digitmap) 

460 

>>> # Arabic digits 

>>> x = '\u0661\u0662\u0663' 
>>> x. translate (digitmap) 
'123' 

>>> 


另 一 种 用 来 清理 文本 的 技术 涉及 IO 解码 和 编码 函数 ,大致 思 路 是 首先 对 文本 做 初步 的 
清理 ， 然 后 通过 结合 encode0 和 decode0 操 作 来 修改 或 清理 文本 。 示 例如 下 : 


>>> a 

'python is awesome\n' 

>>> b = unicodedata.normalize('NFD', a) 

>>> b.encode('ascii', 'ignore').decode('ascii') 
‘python is awesome\n' 

>> 


这 里 的 normalize() 方 法 先 对 原始 文本 做 分 解 操作 。 后 续 的 ASCI 编码 /解码 只 是 简单 地 
一 次 性 丢弃 所 有 不 需要 的 字符 。 很 显然 ， 这 种 方法 只 有 当 我 们 的 最 终 目 标 就 是 ASCII 
形式 的 文本 时 才 有 用 。 


2.12.3 讨论 

文本 过 滤 和 清理 的 一 个 主要 问题 就 是 运行 时 的 性 能 。 一 般 来 说 操作 越 简单 ， 运 行 得 就 
越 快 。 对 于 简单 的 替换 操作 ， 用 str.replace0 通 常 是 最 快 的 方式 一 一 即使 必须 多 次 调用 
它 也 是 如 此 。 比 方 说 如 果 要 清理 掉 空 格 符 ， 可 以 编写 如 下 的 代码 : 


def clean spaces(s): 
S = s.replace('\r', '') 
S = s.replace('\t', ' ') 


» 
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S = s.replace('\f', ' ') 


return s 
如 果 试 着 调用 它 ， 就 会 发 现 这 比 使 用 translate0 或 者 正则 表达 式 的 方法 要 快 得 多 。 
男 一 方面 ,如 果 需 要 做 任何 高 级 的 操作 ,比如 字符 到 字符 的 重 映射 或 删除 ,那么 translate() 
方法 还 是 非常 快 的 。 
从 整体 来 看 ， 我 们 应 该 在 具体 的 应 用 中 去 进一步 揣摩 性 能 方面 的 问题 。 不 幸 的 是 ， 想 
在 技术 上 给 出 一 条 “ 放 之 四 海 而 丝 准 ”的 建议 是 不 可 能 的 ， 所 以 应 该 尝试 多 种 不 同 的 
方法 ， 然 后 做 性 能 统计 分 析 。 
尽管 本 节 的 内 容 主要 关注 的 是 文本 ， 但 类 似 的 技术 也 同样 适用 于 字 节 对 象 (byte )， 这 
包括 简单 的 蔡 换 、 翻 译 和 正则 表达 式 。 


2.13 ”对齐 文本 字符 串 


2.13.1 问题 
我 们 需要 以 某 种 对 齐 方式 将 文本 做 格式 化 处 理 。 


2.13.2 ”解决 方案 
对 于 基本 的 字符 串 对 齐 要求 ， 可 以 使 用 字符 串 的 Lust. rjustQ#l center() 方 法 。 示 例 
如 下 : 


>>> text = 'Hello World' 

>>> text.ljust(20) 

'Hello World ' 

>>> text.rjust (20) 

: Hello World' 

>>> text.center(20) 
Hello World ' 

>>> 


所 有 这 些 方法 都 可 接受 一 个 可 选 的 填充 字符 。 例 如 : 


>>> text.rjust(20,'-') 
!c--------Hello World' 
>>> text.center(20,'*') 
!****Hello World*****! 


>>> 


formatO 函 数 也 可 以 用 来 轻松 完成 对 齐 的 任务 。 需 要 做 的 就 是 合理 利用 < 、>， 或 ^ 字 
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符 以 及 一 个 期 望 的 宽度 值 "。 例 如 : 


>>> format (text, '>20') 
^ Hello World' 
>>> format(text, '<20') 
"Hello World ' 

>>> format (text, '*20') 
5 Hello World ' 

>>> 


如 果 想 包含 空格 之 外 的 填充 字符 ， 可 以 在 对 齐 字符 之 前 指定 : 


>>> format(text, '=>20s') 
'=========Hello World! 
>>> format(text, '**20s') 
!****Hello World*****' 


>>> 


当 格 式 化 多 个 值 时 ， 这 些 格 式 化 代码 也 可 以 用 在 format( 方 法 中 。 例 如 : 


>>> '{:>10s} {:>10s}'.format('Hello', 'World') 
! Hello World' 
>>> 


formatO 的 好 处 之 一 是 它 并 不 是 特定 于 字符 串 的 。 它 能 作用 于 任何 值 ， 这 使 得 它 更 加 通 


用 。 例 如 ， 可 以 对 数字 做 格式 化 处 理 : 


>>> x = 1.2345 

>>> format(x, '>10') 

' 1.2345' 

>>> format(x, '^10.2f' 
y 1:28. 

>>> 


2.13.3 讨论 
在 比较 老 的 代码 中 ， 通 常会 发 现 % 操 作 符 用 来 格式 化 文本 。 例 如 : 


>>> '$-20s' $ text 
'Hello World ' 

>>> '$20s' $ text 

! Hello World' 
>>> 


但 是 在 新 的 代码 中 , 我 们 应 该 会 更 钟情 于 使 用 format0 函 数 或 方法 。formatO 比 % 操 作 符 
提供 的 功能 要 强大 多 了 。 此 外 ，format() 可 作用 于 任意 类 型 的 对 象 ， 比 字符 串 的 jjustO、 


fjust() 以 及 center() 方 法 要 更 加 通用 。 


” 必 > 表示 右 对 齐 ，'< 表 示 左 对 齐 ，^ 表 示 居 中 对 齐 ， 这 些 字符 称 为 对 齐 字符 。 一 一 译 者 注 
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8 T fff formatO PARA TA DRE, ES Python 的 在 线 手册 http://docs.python.org/3/ libra 
ry/ string. html#formatspec. 


2.14 字符 串 连接 及 合并 


244.1. 问题 
我 们 想 将 许多 小 字符 串 合并 成 一 个 大 的 字符 串 。 
2142 ”解决 方案 


如 果 想 要 合并 的 字符 串 在 一 个 序列 或 可 迭代 对 象 中 ， 那 么 将 它们 合并 起 来 的 最 快 方法 
就 是 使 用 join0 方 法 。 示 例如 下 : 


>>> parts = ['Is', 'Chicago', 'Not', 'Chicago?'] 


>>> ' '.join(parts) 

'Is Chicago Not Chicago?' 
>>> ','.join(parts) 

'Is, Chicago, Not, Chicago?' 
>>> ''.join(parts) 
'IsChicagoNotChicago?' 
>>> 


初 看 上 去 语法 可 能 显得 有 些 怪 异 ， 但 是 join0 操 作 其 实 是 字符 串 对 象 的 一 个 方法 。 这 人 么 
设计 的 部 分 原因 是 因为 想 要 合并 在 一 起 的 对 象 可 能 来 自 于 各 种 不 同 的 数据 序列 ， 比 如 
列表 、 元 组 、 字 典 、 文 件 、 集 合 或 生成 器 , 如 果 单 独 在 每 一 种 序列 对 象 中 实现 一 个 join0 
方法 就 显得 太 元 余 了 。 因 此 只 需要 指定 想 要 的 分 隔 字 符 串 ， 然 后 在 字符 串 对 象 上 使 用 
join() 方 法 将 文本 片段 粘 合 在 一 起 就 可 以 了 。 

如 果 只 是 想 连 接 一 些 字 符 串 ， 一 般 使 用 + 操作 符 就 足够 完成 任务 了 


>>> a = 'Is Chicago' 
>>> b = 'Not Chicago?! 


>>at''+b 
'Is Chicago Not Chicago?' 
>>> 


针对 更 加 复杂 的 字符 串 格式 化 操作 ，+ 操 作 符 同 样 可 以 作为 format0 的 百代 ， 很 好 地 完 
成 任务 : 


>>> print('{} [j'.format(a,b)) 
Is Chicago Not Chicago? 

>>> print(a + ' ' + b) 

Is Chicago Not Chicago? 

>>> 
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如 果 打 算 在 源 代码 中 将 字符 串 字面 值 合并 在 一 起 ， 可 以 简单 地 将 它们 排列 在 一 起 ， 中 
间 不 加 + 操作 符 。 示 例如 下 : 

>>> a = 'Hello' 'World' 

>>> a 


"HelloWorld' 
>>> 


2.14.3 讨论 

字符 串 连接 这 个 主题 可 能 看 起 来 还 没有 高 级 到 要 用 一 整 节 的 篇 幅 来 讲解 ， 但 是 程序 员 
常常 会 在 这 个 问题 上 做 出 错误 的 编程 选择 ， 使 得 他 们 的 代码 性 能 受到 影响 。 

最 重要 的 一 点 是 要 意识 到 使 用 + 操作 符 做 大 量 的 字符 串 连接 是 非常 低 效 的 ， 原 因 
是 由 于 内 存 拷贝 和 垃圾 收集 产生 的 影响 。 特 别 是 你 绝 不 会 想 写 出 这 样 的 字符 串 连 
接 代码 : 


s="! 


for p in parts: 


S t-"p 
这 种 做 法 比 使 用 join0 方 法 要 慢 上 许多 。 主要 是 因为 每 个 += 操 作 都 会 创建 一 个 新 的 字符 
串 对 象 。 我 们 最 好 先 收集 所 有 要 连接 的 部 分 ， 最 后 再 一 次 将 它们 连接 起 来 。 


一 个 相关 的 技巧 〈 很 漂亮 的 技巧 ) 是 利用 生成 器 表达 式 〈 见 1.19 节 ) 在 将 数据 转换 为 
字符 串 的 同时 完成 连接 操作 。 示 例如 下 : 


>>> data = ['ACME', 50, 91.1] 


>>> ','.join(str(d) for d in data) 
'ACME, 50,91.1' 
>>> 


对 于 不 必要 的 字符 串 连 接 操 作 也 要 引起 重视 。 有 时 候 在 技术 上 并 非 必需 的 时 候 ， 程 序 
员 们 也 会 忘乎所以 地 使 用 字符 串 连接 操作 。 例 如 在 打印 的 时 候 : 


print(a + ':' + b+ ':' +c) # Ugly 
print(':'.join([a, b, c])) # Still ugly 
print(a, b, c, sep=':') # Better 


将 字符 串 连接 同 UO 操作 混合 起 来 的 时 候 需 要 对 应 用 做 仔细 的 分 析 。 例如 , 考虑 如 下 两 
段 代码 : 

# Version 1 (string concatenation) 

f.write (chunkl + chunk2) 
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# Version 2 (separate I/O operations) 
f.write(chunkl) 
f.write(chunk2) 


如 果 这 两 个 字符 串 都 很 小 ， 那 么 第 一 个 版 本 的 代码 能 带 来 更 好 的 性 能 ， 这 是 因为 执行 
一 次 VO 系统 调用 的 固有 开销 就 很 高 。 男 一 方面 ， 如 果 这 两 个 字符 串 都 很 大 , 那么 第 二 
个 版 本 的 代码 会 更 加 高 效 。 因 为 这 里 避免 了 创建 大 的 临时 结果 ， 也 没有 对 大 块 的 内 存 
进行 拷贝 。 这 里 必须 再 次 强调 ， 你 需要 对 自己 的 数据 做 分 析 ， 以 此 才能 判定 哪 一 种 方 
法 可 以 获得 最 好 的 性 能 。 

最 后 但 也 是 最 重要 的 是 ， 如 果 我 们 编写 的 代码 要 从 许多 短 字 符 串 中 构建 输出 ， 则 应 该 
考虑 编写 生成 器 函数 ， 通 过 yield 关键 字 生 成 字符 串 片 段 。 示 例如 下 : 


def sample(): 


yield 'Is' 
yield 'Chicago' 
yield 'Not' 
yield 'Chicago?' 


关于 这 种 方法 有 一 个 有 趣 的 事实 ， 那 就 是 它 不 会 假设 产生 的 片段 要 如 何 组 合 在 一 起 。 
比如 说 可 以 用 join0 将 它们 简单 的 连接 起 来 : 


text = ''.join(sample()) 


或 者 ， 也 可 以 将 这 些 片段 重 定向 到 Uo: 


for part in sample(): 


f.write(part) 


又 或 者 我 们 能 以 混合 的 方式 将 UO 操作 智能 化 地 结合 在 一 起 : 


def combine(source, maxsize): 
parts = [] 
size = 0 
for part in source: 
parts.append (part) 
size += len(part) 
if size > maxsize: 
yield ''.join(parts) 
parts = [] 
size = 0 
yield ''.join(parts) 


for part in combine(sample(), 32768): 
f.write(part) 


关键 在 于 这 里 的 生成 器 函数 并 不 需要 知道 精确 的 细节 ， 它 只 是 产生 片段 而 已 。 
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2.15 给 字符 串 中 的 变量 名 做 插值 处 理 


2.15.1 问题 
我 们 想 创建 一 个 字符 串 ， 其 足 入 的 变量 名 称 会 以 变量 的 字符 串 值 形式 替换 掉 。 


2.15.2 ”解决 方案 


Python 并 不 直接 支持 在 字符 中 对 变量 做 简单 的 值 奉 换 。 但 是 ， 这 个 功能 可 以 通过 字 
TT BAY format0 方 法 近似 模拟 出 来 。 示 例如 下 : 


>>> s = '{name} has (n) messages.' 


>>> s. format (name='Guido', n=37) 
"Guido has 37 messages.' 
>>> 


3j ADT RE, WOR Ee AY (SC HE EE ae PF BI, MAT LORE format_map()#il 
vars() 联 合 起 来 使 用 ， 示 例如 下 : 
>>> name = 'Guido' 


>>> n = 37 
>>> s.format map(vars()) 


'Guido has 37 messages.' 
>>> 


有 关 vars0 的 一 个 微妙 的 特性 是 它 也 能 作用 于 类 实例 上 。 比 如 : 


>>> class Info: 
def init (self, name, n): 


self.name = name 
self.n=n 


>>> a = Info('Guido', 37) 
>>> s.format_map (vars (a) ) 
"Guido has 37 messages.' 
>>> 


而 format() 和 format_mapO 的 一 个 缺点 则 是 没 法 优雅 地 处 理 缺 少 某 个 值 的 情况 
例如 : 


>>> s. format (name='Guido') 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: 'n' 

>>> 
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避免 出 现 这 种 情况 的 一 种 方法 就 是 单独 定义 一 个 带 有 _missing__“() 方 法 的 字典 类 , 示 
如 下 : 


class safesub(dict): 


def missing (self, key): 
return '(' + key + 7)" 


现在 用 这 个 类 来 包装 传 给 format map() 的 输入 参数 : 


>>> del n # Make sure n is undefined 
>>> s.format map (safesub(vars())) 

'Guido has (n) messages.' 

>>> 


GOR ACHR H CE ETS AE e EAT EER, MU DO a t oe BE — 1 
小 型 的 功能 函数 内 ， 这 里 要 采用 一 种 称 之 为 “frame hack” 的 技巧 ”示例 如 下 : 


import sys 


def sub(text): 


return text.format map(safesub(sys. getframe(1).f locals)) 


现在 ， 我 们 就 可 以 像 这 样 编写 代码 了 : 


>>> name = 'Guido' 

>>> n = 37 

>>> print(sub('Hello (name]')) 
Hello Guido 


>>> print(sub('You have {n} messages.')) 

You have 37 messages. 

>>> print(sub('Your favorite color is {color}')) 
Your favorite color is (color) 

>>> 


2.15.3 ”讨论 


例 


多 年 来 ,由 于 Python 缺乏 真正 的 变量 插值 功能 ,由 此 产生 了 各 种 解决 方案 。 作 为 本 
节 中 已 给 出 的 解决 方案 的 奉 代 ， 有 时 候 我 们 会 看 到 类 似 下 面 代 码 中 的 字符 串 格 式 化 


TRE: 


>>> name = 'Guido' 
>>> n= 37 


>>> 'S(name) has %(n) messages.’ % vars ( 


” 即 需 要 同 函 数 的 栈 巾 打交道 iH. sys._getframe 这 个 特殊 的 函数 可 以 让 我 们 获得 调用 函数 的 栈 信 


et 


\。 一 一 译 者 注 
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'Guido has 37 messages.' 
>>> 


我 们 可 能 还 会 看 到 模板 字符 串 (template string ) 的 使 用 : 


>>> import string 

>>> s = string.Template('$name has $n messages.') 
>>> s.substitute (vars () ) 

"Guido has 37 messages.' 

>>> 


{Azz , format()fll format map() 方 法 比 上 面 这 些 替 代 方 案 都 要 更 加 现代 化 ,我 们 应 该 
将 其 作为 首选 。 使 用 format0O 的 一 个 好 处 是 可 以 同时 得 到 所 有 关于 字符 串 格 式 化 方 
面 的 功能 ( 对齐 、 填 充 、 数 值 格式 化 等 )， 而 这 些 功能 在 字符 串 模 板 对 象 上 是 不 可 
能 做 到 的 。 

在 本 节 的 部 分 内 容 中 还 提 到 了 一 些 有 趣 的 高 级 特性 。 字 典 类 中 鲜 为 人 知 的 _missing_0) 
方法 可 用 来 处 理 缺 少 值 时 的 行为 。 在 safesub 类 中 ， 我 们 将 该 方法 定义 为 将 缺失 的 值 以 
占 位 符 的 形式 返回 ， 因 此 这 里 不 会 抛 出 KeyError 异常 ， 缺 少 的 那个 值 会 出 现在 最 后 生 
成 的 字符 串 中 〈 可 能 对 调试 有 些 帮 助 )。 

sub() PA ZI fli Hj T. sys，getframe(]) 来 返回 调用 方 的 栈 帧 。 通 过 访问 属性 f locals 来 
得 到 局 部 变量 。 无 需 歼 言 ， 在 大 部 分 的 代码 中 都 应 该 避免 去 和 栈 帧 打交道 ， 但 是 
对 于 类 似 完成 字符 串 替 换 功 能 的 函数 来 说 ， 这 会 是 有 用 的 。 插 一 句 题 外 话 ， 值 得 
指出 的 是 f locals 是 一 个 字典 , 它 完成 对 调用 函数 中 局 部 变量 的 拷贝 。 尽管 可 以 修 
Wt f locals 的 内 容 , 可 是 修改 后 并 不 会 产生 任何 持续 性 的 效果 。 因 此 ,尽管 访问 不 
同 的 栈 帧 可 能 看 起 来 是 很 邪恶 的 ， 但 是 想 意 外 地 履 盖 或 修改 调用 方 的 本 地 环境 也 
是 不 可 能 的 。 


2.16 ”以 固定 的 列 数 重新 格式 化 文本 


2.16.1 问题 

我 们 有 一 些 很 长 的 字符 串 ， 想 将 它们 重新 格式 化 ， 使 得 它们 能 按照 用 户 指定 的 列 数 来 
显示 。 

2.16.2 解决 方案 

可 以 使 用 textwrap 模块 来 重新 格式 化 文本 的 输出 。 例 如 ， 假 设 有 如 下 这 段 长 字符 串 ; 


S = "Look into my eyes, look into my eyes, the eyes, the eyes, | 


the eyes, not around the eyes, don't look around the eyes, \ 
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look into my eyes, you're under." 


这 里 可 以 用 textwrap 模块 以 多 种 方式 来 重新 格式 化 字符 串 : 


>>> import textwrap 

>>> print(textwrap.fill(s, 70)) 

Look into my eyes, look into my eyes, the eyes, the eyes, the eyes, 
not around the eyes, don't look around the eyes, look into my eyes, 


you're under. 


>>> print(textwrap.fill(s, 40)) 

Look into my eyes, look into my eyes, 
the eyes, the eyes, the eyes, not around 
the eyes, don't look around the eyes, 


ook into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, initial indent-' ')) 


Look into my eyes, look into my 
eyes, the eyes, the eyes, the eyes, not 
around the eyes, don't look around the 


eyes, look into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, subsequent indent-' ')) 
Look into my eyes, look into my eyes, 


the eyes, the eyes, the eyes, not 


around the eyes, don't look around 
the eyes, look into my eyes, you're 


under. 


2.16.3 讨论 


textwrap 模块 能 够 以 简单 直接 的 方式 对 文本 格式 做 整理 使 其 适合 于 打印 一 一 尤其 是 当 
希望 输出 结果 能 很 好 地 显示 在 终端 上 时 。 关 于 终端 的 尺寸 大 小 ， 可 以 通过 os.get_ 
terminal size0 来 获取 。 例 如 : 


>>> import os 


>>> os.get terminal size().columns 
80 
>>> 


fill0 方 法 还 有 一 些 额 外 的 选项 可 以 用 来 控制 如 何 处 理 制 表 符 、 句 号 等 。 请 参阅 
textwrap.TextWrapper 类 的 文档 ( http://docs.python.org/3.3/library/ textwrap. html# text w r 
ap.TextWrapper ) 以 获得 进一步 的 细节 。 
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2.17 ”在 文本 中 处 理 HTML 和 XML 实体 


2.17.1 问题 


我 们 想 将 &entity 或 &#code 这 样 的 HTML 或 XML 实体 替换 为 它们 相对 应 的 文本 。 或 


者 ， 我 们 需要 生成 文本 ， 但 是 要 对 特定 的 字符 〈 比如 <,> 或 & ) 做 转 义 处 理 。 


2.17.2 ”解决 方案 


如 果 要 生成 文本 , 使 用 html.escapeO 函 数 来 完成 替换 <or> 这 样 的 特殊 字符 相对 来 说 是 比 


较 容易 的 。 例 如 : 


>>> s = 'Elements are written as "<tag>text</tag>".' 
>>> import html 

>>> print (s) 

Elements are written as "<tag>text</tag>". 

>>> print(html.escape(s)) 


Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt; &quot;. 


>>> # Disable escaping of quotes 

>>> print (html.escape(s, quote=False) ) 

Elements are written as "&lt;tag&gt;text&lt;/tag&gt;" 
>>> 


如 果 要 生成 ASCII 文本 ， 并 且 想 针对 非 ASCU SERPÉCEH DG WII SE F3 ds 3 SZ A SU 
MAA, 可 以 在 各 种 同 VO 相关 的 函数 中 使 用 errors='xmlcharrefreplace' 参 数 来 实现 。 示 


例如 下 : 


>>> s = 'Spicy Jalapefio' 

>>> s.encode('ascii', errors='xmlcharrefreplace') 
b'Spicy Jalape&$241;o' 

>>> 


要 替换 文本 中 的 实体 , 那 就 需要 不 同 的 方法 。 如 果实 际 上 是 


在 处 理 HTML 或 XML, 首 


先 应 该 尝试 使 用 一 个 合适 的 HTML 或 XML 解析 器 。 一 般 来 说 ， 这 些 工具 在 解析 的 过 


程 中 会 自动 处 理 相关 值 的 蔡 换 ， 而 我 们 完全 无 需 为 此 操心 。 


如 果 由 于 某 种 原因 在 得 到 的 文本 中 带 有 一 些 实体 ， 而 我 们 想 手工 将 它们 替换 掉 ， 通 常 
可 以 利用 各 种 HTML 或 XML 解析 器 自 带 的 功能 函数 和 方法 来 完成 。 示 例如 下 : 


>>> s = 'Spicy é&quot;Jalape&#241;o0équot.' 
>>> from html.parser import HTMLParser 
>>> p = HTMLParser() 

>>> p.unescape(s) 
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'Spicy "Jalapefio".' 
>>> 


>>> t = 'The prompt is &gt;&gt;&gt;' 

>>> from xml.sax.saxutils import unescape 
>>> unescape(t) 

'The prompt is >>>! 

>>> 


2.17.3 ”讨论 

在 生成 HTML 或 XML 文档 时 ， 适 当地 对 特殊 字符 做 转 义 处 理 常 常 是 个 容易 被 忽视 的 
细节 。 尤 其 是 当 自 己 用 print0 或 其 他 一 些 基 本 的 字符 串 格式 化 函数 来 产生 这 类 输出 时 更 
是 如 此 。 简 单 的 解决 方案 是 使 用 像 htmlescape(O 这 样 的 工具 函数 。 

如 果 需 要 反 过 来 处 理 文本 (BI, 将 HTML 或 XML 实体 转换 成 对 应 的 字符 )， 有 许多 
像 xml.sax.saxutils.unescape() 这 样 的 工具 函数 能 帮 上 忙 。 但 是 ,我们 需要 仔细 考察 一 
个 合适 的 解析 器 应 该 如 何 使 用 。 例 如 ， 如 果 是 处 理 HTML 或 XML, 像 html.parser 
或 xml.etree.ElementTree 这 样 的 解析 模块 应 该 已 经 解决 了 有 关 替 换文 本 中 实体 的 细 
节 问 题 。 


2.18 ”文本 分 词 


2.18.1 问题 
我 们 有 一 个 字符 串 ， 想 从 左 到 右 将 它 解析 为 标记 流 ( stream of tokens )。 


2.18.2 解决 方案 
假设 有 如 下 的 字符 串 文 本 

text = 'foo = 23 + 42 * 10' 
要 对 字符 串 做 分 词 处 理 ， 需 要 做 的 不 仅仅 只 是 匹配 模式 。 我 们 还 需要 有 某 种 方法 来 识 
别 出 模 式 的 类 型 。 例 如 ， 我 们 可 能 想 将 字符 串 转换 为 如 下 的 序列 对 : 

tokens = [('NAME', 'foo'), ('EQ','-'), ('NUM', '23'), ('PLUS','*'), 

('NUM', '42'), ('TIMES', '*'), ('NUM', 10!) 

要 完成 这 样 的 分 词 处 理 ， 第 一 步 是 定义 出 所 有 可 能 的 标记 ， 包 括 空格 。 这 可 以 通过 正 
则 表达 式 中 的 命名 捕获 组 来 实现 ， 示 例如 下 : 


import re 
NAME = r'(?PXNAME»[a-zA-Z ][a-zA-Z 0-9]*)' 
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NUM = r'(?P<NUM>\d+) ' 
PLUS = r'(?P<PLUS>\+) ' 
TIMES = r'(?P<TIMES>\*) ' 


EQ = r'(?P«EQ»-)' 
WS = r'(?PXWS» Ast) ' 
master pat = re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS])) 


在 这 些 正则 表达 式 模式 中 ， 形 如 ?P<TOKENNAME> 这 样 的 约定 是 用 来 将 名 称 分 配给 该 
模式 的 。 这 个 我 们 稍 后 会 用 到 。 
接 下 来 我 们 使 用 模式 对 象 的 scanner0) 方 法 来 完成 分 词 操 作 。 该 方法 会 创建 一 个 扫描 对 


象 ， 在 给 定 的 文本 中 重复 调用 match0， 一 次 匹配 一 个 模式 。 下 面 这 个 交互 式 示 例 展示 
了 扫描 对 象 是 如 何 工作 的 : 


>>> scanner = master pat.scanner('foo = 42') 


>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>>  .lastgroup, _.group() 

('NAME', 'foo') 

>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('WS', ro) 
>>> scanner.match() 

« sre.SRE Match object at 0x100677738> 
>>>  .lastgroup, _.group() 

("EQ', '=') 
>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>>  .lastgroup, .group() 

(were fot) 

>>> scanner.match() 

« sre.SRE Match object at 0x100677738> 
>>> _.lastgroup, .group() 

('NUM', '42!) 

>>> scanner.match() 


>>> 


要 利用 这 项 技术 并 将 其 转化 为 代码 ， 我 们 可 以 做 些 清 理工 作 然后 轻松 地 将 其 包含 在 一 
个 生成 器 函数 中 ， 示 例如 下 : 


from collections import namedtuple 


Token = namedtuple('Token', ['type','value']) 
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def generate tokens(pat, text): 
scanner = pat.scanner (text) 
for m in iter(scanner.match, None): 
yield Token(m.lastgroup, m.group()) 


# Example use 
for tok in generate tokens(master pat, 'foo = 42'): 


print(tok) 


Produces output 
Token(type-'NAME', value='foo') 
Token(type-'WS', value-' ') 
Token(type-'EQ', value='=') 
Token(type-'WS', value=' ') 
Token (type='NUM', value='42') 


如 果 想 以 某 种 方式 对 标记 流 做 过 滤 处 理 ， 要 么 定义 更 多 的 生成 器 函数 ， 要 么 就 用 生成 
器 表达 式 。 例 如 ， 下 面 的 代码 告诉 我 们 如 何 过 滤 掉 所 有 的 空格 标记 。 
tokens = (tok for tok in generate tokens(master pat, text) 


if tok.type != 'WS') 
for tok in tokens: 


Se OSH o CH. cH. Che SHR 


print(tok) 


2.18.3 讨论 

对 于 更 加 高 级 的 文本 解析 ， Ea 要 使 用 上 面 展 示 的 扫描 技术 ,， 有 
几 个 重要 的 细节 需要 牢记 于 心 。 第 一 ， 对 于 每 个 可 能 出 现在 输入 文本 中 的 文本 序列 ， 
部 要 确保 有 一 个 对 的 正骨 这 式 你 可 以 将 基 识别 出 如 果 发 现 有 任何 不 能 匹配 
的 文本 ， 扫 描 过 程 就 会 停止 。 这 就 是 为 什么 有 必要 在 上 面 的 示例 中 指定 空格 标记 
(WS )。 


这 些 标记 在 正则 表达 式 (Bll re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS])) ) 
中 的 顺序 同样 也 很 重要 。 当 进行 匹配 时 ，re 模块 会 按照 指定 的 顺序 来 对 模式 做 匹配 。 
因此 ， 如 果 碰 巧 某 个 模式 是 另 一 个 较 长 模式 的 子 串 时 ， 就 必须 确保 较 长 的 那个 模式 要 
先 做 匹配 。 示 例如 下 : 


LT = r'(?P<LT><) ' 
LE = r'(?PXLE»«-)' 
EQ = r'(?P«EQ»-) ' 
master pat = re.compile('|'.join([LE, LT, EQ])) # Correct 


# master pat = re.compile('|'.join([LT, LE, EQ])) f Incorrect 


第 2 个 模式 是 错误 的 〈 注释 掉 的 那 一 行 )， 因 为 这 样 会 把 文本 '<=' 匹 配 为 LT C) 紧 跟 
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着 EQ ('=' )， 而 没有 匹配 为 单独 的 标记 LE ('<=' )， 这 与 我 们 的 本 意 不 符 。 


最 后 也 最 重要 的 是 ， 对 于 有 可 能 形成 子 串 的 模式 要 多 加 小 心 。 
模式 : 

PRINT = r' (PXPRINT»print)' 

NAME = r'(PXNAME»[a-zA-Z ][a-zA-Z 0-9]*)' 


master pat - re.compile('|'.join([PRINT, NAME]) 


for tok in generate tokens(master pat, 'printer'): 
print(tok) 


# Outputs : 
# Token(type-'PRINT', value-'print') 
# Token(type-'NAME', value='er') 


例如 ， 假 设 有 如 下 两 种 


对 于 更 加 高 级 的 分 词 处 理 ， 我 们 应 该 去 看 看 像 PyParsing 或 PLY 这 样 的 包 。 有 关 PLY 


的 例子 将 在 下 一 节 中 讲解 。 


2.19 585 —"- (8) E BER UA S eRe AT ae 


2.19.1 问题 


我 们 需要 根据 一 组 语法 规则 来 解析 文本 ， 以 此 执行 相应 的 操作 或 构建 一 个 抽象 语法 
树 来 表示 输入 。 语 法 规则 很 简单 ， 因 此 我 们 倾向 于 自己 编写 解析 器 而 不 是 使 用 某 种 


解析 器 框架 。 
2.19.2 dd 


在 这 个 问题 中 ， 我 们 把 重点 放 在 根据 特定 的 语法 来 解析 文本 上 。 要 做 到 这 些 ， 应 该 以 


BNF gh EBNF AMES a DEN, RIEN 
法 看 起 来 是 这 样 的 : 


expr ::- expr + term 


expr - term 


term 


term ::= term * factor 


term / factor 
factor 


factor ::= ( expr ) 
| NUM 


又 或 者 以 EBNF 的 形式 定义 为 如 下 形式 : 


和 的 Rid 表达 式 ， i 
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expr ::= term { (+|-) term }* 
term ::= factor { (*|/) factor }* 
factor ::= ( expr ) 

| NUM 


在 EBNF 中 ， 部 分 包括 在 { … }# 中 的 规则 是 可 选 的 。* 意 味 着 零 个 或 更 多 重复 项 〈 和 在 


正则 表达 式 中 的 意义 相同 )。 


现在 ， 如 果 我 们 对 BNF 还 不 熟悉 的 话 ， 可 以 把 它 看 做 是 规则 替换 或 取代 的 一 种 规范 形 
式 ， 左 侧 的 符号 可 以 被 右 侧 的 符号 所 取代 ( 反之 亦 然 )。 一 般 来 说 ， 在 解析 的 过 程 中 我 
们 会 尝试 将 输入 的 文本 同 语法 做 匹配 ， 通 过 BNF 来 完成 各 种 替换 和 扩展 。 为 了 说 明 ， 

假设 正在 解析 一 个 类 似 于 3 + 4* 5 这 样 的 表达 式 。 这 个 表达 式 首先 应 该 被 分 解 为 标记 
流 , 这 可 以 使 用 2.18 节 中 描述 的 技术 来 实现 。 得 到 的 结果 可 能 是 下 面 这 样 的 标记 序列 : 


NUM + NUM * NUM 


从 这 里 开始 ， 解 析 过 程 就 涉及 通过 替换 的 方式 将 语法 匹配 到 输入 标记 上 


expr 

expr ::= term ( (+|-) term }* 

expr ::= factor ( (*|/) factor }* ( (+|-) term }* 

expr ::- { (*|/) factor }* ( (+|-) term }* 

expr : := { (*|-) term }* 

expr ::= NUM + term ( (+|-) term }* 

expr ::= NUM + factor ( (*|/) factor }* { (*|-) term }* 

expr ::= NUM + NUM { (*|/) factor}* { (*|-) term }* 

expr ::- NUM + NUM * factor ( (*|/) factor }* { (*|-) term }* 

expr ::= NUM + NUM * NUM { (*|/) factor }* ( (*|-) term }* 

expr ::= NUM + NUM * NUM ( (+|-) term }* 

expr ::- + NUM * NUM 
TRA Wa ris EE EBATE, i0 HD A A ZG RC A LR Ere 
定 的 ,第 一 个 输入 标记 是 一 个 NUM , 因此 替换 操作 首先 会 把 重点 放 在 匹配 这 一 部 分 上 。 
一 旦 匹配 上 了 ,重点 就 转移 到 下 一 个 标记 + 上 ， 如 此 往复 。 当 发 现 无 法 匹配 下 一 个 标记 


时 ， 右 手 侧 的 特定 部 分 ({ (*/) factor }* ) 就 会 消失 。 在 一 个 成 功 的 解析 过 程 中 ， 整 个 


右手 侧 部 分 会 完全 根据 匹配 到 的 输入 标记 流 来 相应 地 扩展 。 


有 了 前 面 这 些 基础 ， 下 面 就 向 各 位 展示 如 何 构建 一 个 递归 下 降 的 表达 式 计算 吕 : 


import re 
import collections 


# Token specification 
NUM = r'(?P<NUM>\dt+) ' 
PLUS = r'(?P<PLUS>\+) ' 
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MINUS = r'(?P<MINUS>-) ' 


TIMES = r'(?P<TIMES>\*) ' 
DIVIDE = r'(?P«DIVIDE»/)' 
LPAREN = r'(?PXLPARENDA()' 


RPAREN = r'(?P<RPAREN>\)) ' 
WS = r'(?P<WS>\st+)' 


master pat = re.compile('|'.join([NUM, PLUS, MINUS, TIMES, 
DIVIDE, LPAREN, RPAREN, WS])) 
# Tokenizer 


Token = collections.namedtuple('Token', ['type', 'value']) 


def generate tokens (text): 
Scanner - master pat.scanner(text) 
for m in iter(scanner.match, None): 
tok = Token(m.lastgroup, m.group()) 
if tok.type != 'WS': 
yield tok 


# Parser 

class ExpressionEvaluator: 

ree 

Implementation of a recursive descent parser. Each method 
implements a single grammar rule. Use the . accept() method 

to test and accept the current lookahead token. Use the . expect () 
method to exactly match and discard the next token on on the input 
(or raise a SyntaxError if it doesn't match). 


def parse(self,text): 


self.tokens = generate tokens (text) 


self.tok = None # Last symbol consumed 
self.nexttok = None # Next symbol tokenized 
self. advance () # Load first lookahead token 


return self.expr() 


def _advance (self): 
'Advance one token ahead' 


self.tok, self.nexttok = self.nexttok, next(self.tokens, None) 


def accept(self,toktype): 
'Test and consume the next token if it matches toktype' 
if self.nexttok and self.nexttok.type == toktype: 
self. advance() 


return True 
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else: 
return False 


def expect (self, toktype) : 
"Consume next token if it matches toktype or raise SyntaxError' 
if not self. accept (toktype) : 
raise SyntaxError('Expected ' + toktype) 


# Grammar rules follow 


def expr(self): 
"expression ::= term { ('t'|'-') term }*" 


exprval = self.term() 

while self. accept('PLUS') or self. accept ('MINUS'): 
op = self.tok.type 
right = self.term() 


if op == 'PLUS': 
exprval += right 
elif op == 'MINUS': 


exprval -= right 


return exprval 


def term(self): 
"term ::= factor { ('*'|'/') factor }*" 


termval = self. factor ( 

while self. accept ('TIMES') or self. accept('DIVIDE'): 
op = self.tok.type 
right = self.factor ( 


if op == 'TIMES': 
termval *= right 
elif op == 'DIVIDE': 


termval /= right 


return termval 


def factor(self): 
"factor ::= NUM | ( expr )" 
if self. accept ('NUM'): 
return int (self.tok.value) 
elif self. accept ('LPAREN'): 
exprval = self.expr() 
Self. expect ('RPAREN') 


return exprval 
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else: 
raise SyntaxError('Expected NUMBER or LPAREN') 


下 面 是 以 交互 式 的 方式 使 用 ExpressionEvaluator 类 的 示例 : 


>>> e = ExpressionEvaluator() 
>>> e.parse('2') 

2 

>>> e.parse('2 + 3') 

5 

>>> e.parse('2 + 3 * 4!) 

14 

>>> e.parse('2 + (3 + 4) * 5!) 
37 

>>> e.parse('2 + (3 + * 4)') 
Traceback (most recent call last): 


ile "<stdin>", line 1, in <module> 
File "exprparse.py", line 40, in parse 
return self.expr() 
ile "exprparse.py", line 67, in expr 
right = self.term() 
ile "exprparse.py", line 77, in term 
termval = self.factor() 


ile "exprparse.py", line 93, in factor 
exprval = self.expr() 

File "exprparse.py", line 67, in expr 
right = self.term() 
File "exprparse.py", line 77, in term 


termval = self. factor ( 


File "exprparse.py", line 97, in factor 
raise SyntaxError ("Expected NUMBER or LPAREN") 
SyntaxError: Expected NUMBER or LPAREN 
>>> 


如 果 我 们 想 做 的 不 只 是 纯粹 的 计算 , 那 就 需要 修改 ExpressionEvaluator 类 来 实现 。 比 如 ， 
下 面 的 实现 构建 了 一 棵 简单 的 解析 树 : 


class ExpressionTreeBuilder (ExpressionEvaluator): 


def expr(self): 
"expression ::= term ( ('*'|'-') term }" 


exprval = self.term() 

while Self. accept('PLUS') or self. accept('MINUS'): 
op 7 self.tok.type 
right = self.term() 
if op == 'PLUS': 
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exprval = ('+', exprval, right) 
elif op == 'MINUS': 
exprval = ('-', exprval, right) 
return exprval 


def term(self): 


"term ::- factor ( ('*'|'/') factor }" 


termval = self.factor() 

while self. accept('TIMES') or self. accept('DIVIDE'): 
op = self.tok.type 
right = self.factor ( 


if op == 'TIMES': 
termval = ('*', termval, right) 
elif op == 'DIVIDE': 
termval = ('/', termval, right) 


return termval 


def factor(self): 
"factor ::= NUM | ( expr )' 


if self. accept ('NUM'): 
return int (self.tok.value) 
elif self. accept('LPAREN'): 
exprval = self.expr() 
self. expect ('RPAREN') 
return exprval 
else: 
raise SyntaxError('Expected NUMBER or LPAREN') 


下 面 的 示例 展示 了 它 是 如 何 工作 的 : 


>>> e = ExpressionTreeBuilder() 
>>> e.parse('2 + 3!) 

nA 3] 

>>> e.parse('2 + 3 * 4') 
人 

>>> e.parse('2 * (3 * 4) * 5!) 
Cet, 2, CRI, (gt, 3, 4), 5)) 
>>> e.parse('2 + 3 + 4') 

(UV. (xt. 2573) 4) 

>>> 


2.19.3 讨论 
文本 解析 是 一 个 庞大 的 主题 ， 一 般 会 占用 学 生 们 编译 原理 课程 的 前 三 周 时 间 。 如 果 你 
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正在 寻找 有 关 语 法 、 解 析 算 法 和 其 他 相关 信息 的 背景 知识 ， 那 么 应 该 去 找 一 本 编译 右 
方面 的 图 书 来 读 。 无 需 更 言 ， 本 书 是 不 会 重复 那些 内 容 的 。 

然而 ， 要 编写 一 个 递归 下 降 的 解析 器 ， 总 体 思 路 还 是 比较 简单 的 。 我 们 要 将 每 一 条 语 
法 规则 转变 为 一 个 函数 或 方法 。 因 此 ， 如 果 我 们 的 语法 看 起 来 是 这 样 的 : 


expr ::= term ( ('*'|'-') term }* 
term ::= factor { ('*'|'/') factor }* 
factor ::= '(' expr ')' 

| NUM 


就 可 以 像 下 面 这 样 将 它们 转换 为 对 应 的 方法 : 


class ExpressionEvaluator: 
def expr(self): 


def term(self): 


def factor(self): 


每 个 方法 的 任务 很 简单 一 一 必须 针对 语法 规则 的 每 个 部 分 从 左 到 右 扫 描 ， 在 扫描 
过 程 中 处 理 符 号 标记 。 从 某 种 意义 上 说 ， 这 些 方法 的 目的 就 是 顺利 地 将 规则 消化 
掉 ， 如 果 卡 住 了 就 产生 一 个 语法 错误 。 要 做 到 这 点 ， 需 要 应 用 下 面 这 些 实现 
技术 。 

。 ”如 果 规 则 中 的 下 一 个 符号 标记 是 另 一 个 语法 规则 的 名 称 ( 例如 ， term 或 者 factor ), 
就 需要 调用 同名 的 方法 。 这 就 是 算法 中 的 “下 降 ” 部 分 一 一 控制 其 下 降 到 另 一 个 
语法 规则 中 。 有 时 候 规 则 中 会 涉及 调用 已 经 在 执行 的 方法 ( 例如, 在 规则 factor ::= 
(' expr PXT expr 的 调用 )。 这 就 是 算法 中 的 “递归 ”部 分 。 

。 ”如 果 规 则 中 的 下 一 个 符号 标记 是 一 个 特殊 的 符号 (例如 '(' ), 需要 检查 下 一 个 标记 ， 
看 它们 是 否 能 完全 匹配 。 如 果 不 能 匹配 ， 这 就 是 语法 错误 。 本 节 给 出 的 _expect( 
方法 就 是 用 来 处 理 这 些 步 骤 的 。 

。 ”如 果 规 则 中 的 下 一 个 符号 标记 存在 多 种 可 能 的 选择 ( 例如 + 或 - )， 则 必须 针对 每 种 

可 能 性 对 下 一 个 标记 做 检查 ， 只 有 在 有 匹配 满足 时 才 前 进 到 下 一 步 。 这 就 是 本 节 

给 出 的 accept0 方 法 的 目的 所 在 。 这 有 点 像 except0 的 弱化 版 ， 在 accept0 中 如 果 

有 匹配 满足 ， 就 前 进 到 下 一 步 ， 但 如 果 没 有 匹配 ， 它 只 是 简单 的 回 退 而 不 会 引发 

一 个 错误 ( 这样 检查 才 可 以 继续 进行 下 去 )。 
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。 ”对 于 语法 规则 中 出 现 的 重复 部 分 (例如 expr :—term ( (+ | '-') term )* ) ,这 是 通过 
while 循环 来 实现 的 。 一 般 在 循环 体 中 收集 或 处 理 所 有 的 重复 项 ， 直 到 无 法 找到 更 
多 的 重复 项 为 止 。 

。 ”一 旦 整个 语法 规则 都 已 经 处 理 完 ， 每 个 方法 就 返回 一 些 结果 给 调用 者 。 这 就 是 在 

解析 过 程 中 将 值 进行 传递 的 方法 。 比 如 ， 在 计算 器 表达 式 中 ， 表 达 式 解析 的 部 分 
结果 会 作为 值 来 返回 。 最 终 它 们 会 结合 在 一 起 ， 在 最 顶层 的 语法 规则 方法 中 得 到 
执行 。 

尽管 本 节 给 出 的 例子 很 简单 ， 但 递归 下 降解 析 器 可 以 用 来 实现 相当 复杂 的 解析 器 。 例 

lll, Python 代码 本 身 也 是 通过 一 个 递归 下 降解 析 器 来 解释 的 。 如 果 对 此 很 感 兴趣 ， 可 

以 通过 检查 Python 源 代 码 中 的 Grammar/Grammar 文件 来 一 探究 竟 。 即 便 如 此 ,要 自己 

手写 一 个 解析 器 时 仍然 需要 面 对 各 种 陷阱 和 局 限 。 

局 限 之 一 就 是 对 于 任何 涉及 左 递归 形式 的 语法 规则 ， 都 没 法 用 递归 下 降解 析 器 来 解决 。 

例如 ， 假 设 需要 解释 如 下 的 规则 : 


items ::- items ',' item 


| item 
要 完成 这 样 的 解析 ， 我 们 可 能 会 试 着 这 样 来 定义 items() 方 法 : 


def items(self): 


itemsval = self.items() 
if itemsval and self. accept(','): 
itemsval.append(self.item()) 
else: 
itemsval = [ self.item() ] 


唯一 的 问题 就 是 这 么 做 行 不 通 。 实 际 上 这 会 产生 一 个 无 穷 递归 的 错误 。 
我 们 也 可 能 会 陷入 到 语法 规则 自身 的 麻烦 中 。 例 如 ， 我 们 可 能 想 知 道 表达 式 是 否 能 以 
这 种 加 简单 的 语法 形式 来 描述 : 


expr ::= factor ( ('4'|'-'|'*'|'/') factor }* 


factor ::= '(' expression ')' 
| NUM 


这 个 语法 从 技术 上 说 是 能 实现 的 ， 但 是 它 却 并 没有 遵守 标准 算术 中 关于 计算 顺序 的 约 
定 。 比 如 说 ， 表 达 式 “3 + 4 * 5” 会 被 计算 为 35， 而 不 是 我 们 预期 的 23。 因 此 这 里 需 
要 单独 的 “expr” 和 “term” 规 则 来 确保 计算 结果 的 正确 性 。 

对 于 真正 复杂 的 语法 解析 , 最 好 还 是 使 用 像 PyParsing 或 PLY 这样 的 解析 工具 。 如 果 使 
H PLY fiit, 解析 计算 器 表达 式 的 代码 看 起 来 是 这 样 的 : 
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from ply.lex import lex 
from ply.yacc import yacc 


# Token list 
tokens = [ 'NUM', 'PLUS', 'MINUS', 'TIMES', 'DIVIDE', 


# Ignored characters 
t ignore = ' \t\n' 


# Token specifications (as regexs) 
t PLUS = r' V" 


t MINUS = r'-' 
t TIMES = r' V" 
t DIVIDE - r'/' 


t LPAREN = r'\(' 
t RPAREN = r'V)' 


# Token processing functions 
def t NUM(t): 

rdt! 

t.value = int(t.value) 


return t 


# Error handler 

def t error(t): 
print('Bad character: {!r}'.format(t.value[0])) 
t.skip(1) 


# Build the lexer 
lexer = lex() 


# Grammar rules and handler functions 
def p expr(p): 
expr : expr PLUS term 
| expr MINUS term 
if p[2] == '*': 
p[0] = p[1] + p[3] 
elif p[2] == '-': 
p[0] = p[1] - p[3] 


def p expr term(p): 


meer 


'LPAREN', 


"RPAREN' 


] 
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def p term(p): 
term : term TIMES factor 
| term DIVIDE factor 
if p[2] == '*': 
p[0] = p[1] * p[3] 
elif p[2] == '/': 
p[0] = pi1] / p[3] 


def p term factor(p): 


ene 


term : factor 


p[0] = p[1] 


def p factor(p): 


factor : NUM 


def p factor group(p): 


oer 


factor : LPAREN expr RPAREN 


mr 


p[0] = p[2] 


def p error(p): 


print('Syntax error') 


parser - yacc() 


在 这 份 代码 中 会 发 现 所 有 的 东西 都 是 以 一 种 更 高 层 的 方式 来 定义 的 。 我 们 只 需 编写 匹 
配 标记 符号 的 正则 表达 式 ， 以 及 当 匹 配 各 种 语法 规则 时 所 需要 的 高 层 处 理 函 数 就 行 了 。 
而 实际 和 运行 解析 器 、 接 收 符 号 标记 等 都 完全 由 库 来 实现 。 


下 面 是 如 何 使 用 解析 器 对 象 的 示例 : 


>>> parser.parse('2') 
2 
>>> parser.parse('243' 
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如 


5 
>>> parser.parse('2+(3+4)*5') 


37 
>>> 
RR 想 在 编程 中 增加 一 点 激动 兴奋 的 感觉 , SS PET a PEA Se EPR VIG 


IN 


再 次 说 明 ， 一 本 编译 需 方面 的 教科 书 会 涵盖 许多 理论 之 下 的 底层 细节 。 但 是 ， 在 网 上 


同样 也 能 找到 六 


2.20 ”在 字 节 串 上 执行 文本 操作 


2.20.1 问题 
我 们 想 在 字 节 串 〈Byte String) 上 执行 常见 的 文本 操作 ( 例如， 拆 分 、 搜 索 和 替换 )。 


2.20.2 解决 方案 
字 节 串 已 经 支持 大 多 数 和 文本 字符 串 一 样 的 内 建 操作 。 例 如 ; 


>>> data = b'Hello World' 
>>> data[0:5] 

b'Hello' 
>>> data.startswith(b'Hello') 
True 
>>> data.split ( 

[b'Hello', b'World'] 

>>> data.replace(b'Hello', b'Hello Cruel' 
b'Hello Cruel World' 

>>> 


类 似 这 样 的 操作 在 字 节 数组 上 也 能 完成 。 例 如 : 


>>> data = bytearray(b'Hello World') 

>>> data[0:5] 

bytearray(b'Hello') 

>>> data.startswith(b'Hello') 

True 

>>> data.split ( 

[bytearray(b'Hello'), bytearray(b'World') ] 
>>> data.replace(b'Hello', b'Hello Cruel' 


F 多 优秀 的 在 线 资源 。Python 自 带 的 ast 模块 也 同样 值 


得 去 看 看 。 


bytearray(b'Hello Cruel World') 
>>> 
我 们 可 以 在 字 节 串 上 执行 正则 表达 式 的 模式 匹配 操作 ， 但 是 模式 本 身 需 要 以 字 节 串 的 


80 


$ 
Uu 


形式 来 指定 。 示 例如 下 : 


>>> 
>>> data = b'FOO:BAR,SPAM' 
>>> import re 
>>> re.split('[:,]',data) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/re.py", line 191, in split 
return compile(pattern, flags).split(string, maxsplit) 


TypeError: can't use a string pattern on a bytes-like object 


>>> re.split(b'[:,]',data) # Notice: pattern as bytes 
[b'FOO', b'BAR', b'SPAM'] 
>>> 


2.20.3 讨论 
BOLT S, LPAR 8 在 文本 字符 串 上 执行 的 操作 同样 也 可 以 在 字 节 串 上 
进行 。 但 是 ， 还 是 有 几 个 显著 的 区 别 值 得 大 家 注意 。 例 如 : 


>>> a = 'Hello World' # Text string 
>>> a[0 


M 
v 
v 
o 
Lu 


b'Hello World! # Byte string 


这 种 语义 上 的 差异 会 对 试图 按照 字符 的 方式 处 理 面向 字 节 流 数 据 的 程序 带 来 影响 。 
其 次 ， 字 串 并 没有 提供 一 个 漂亮 的 字符 串 表 示 ， 因 此 打印 结果 并 不 干净 利落 ， 除 非 


SEATS, TOE. 
>>> s = b'Hello World' 
>>> print(s) 
b'Hello World' F Observe b'...' 


>>> print (s.decode('ascii')) 
Hello World 
>>> 


同样 道理 ， 在 字 节 串 上 是 没有 普通 字符 串 那 样 的 格式 化 操作 的 。 
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p 


>>> b'$10s $10d $10.2f' $ (b'ACME', 100, 49 
Traceback (most recent call last): 
File "<stdin>", line 1, in «module» 
TypeError: unsupported operand type(s) for 
>>> b'() () ()'.format(b'ACME', 


Traceback (most recent call las 


100, 490.1) 
E 
File "<stdin>", line 1, in «module» 


0.1) 


Qe 
$: 


'bytes' and 'tuple' 


AttributeError: 'bytes' object has no attribute 'format' 

>>> 
n RES 5 ABE ABE AMIE SRY ERE, WIYATE TIG BJ SC ASS EB YA Js EM 
码 。 示 例如 下 : 

>>> '{:10s} (:10d) (:10.2f])'.format('ACME', 100, 490.1).encode('ascii' 

b'ACME 100 490.10' 

>>> 
最 后 ， 需 要 注意 的 是 使 用 字 节 串 会 改变 某 些 特定 操作 的 语义 一 一 尤其 是 那些 与 文件 系 


统 相 关 的 操作 。 例 如 ， 如 果 提 供 一 个 以 字 节 而 不 是 
系统 通常 都 会 禁止 对 文件 名 的 编码 /解码 。 示 例如 下 : 
>>> # Write a UTF-8 filename 


>>> with open('jalape\xflo.txt', 'w') as f: 
f.write('spicy') 


>>> # Get a directory listing 
>>> import os 

>>> os.listdir('.') 
['Jalapefio.txt'] 

>>> os.listdir(b'.') 
[b'jalapen\xcc\x830.txt'] 
>>> 


# Text string 


# Byte string ( 


青 注意 这 个 例子 中 的 最 后 部 分 ， 本 例 中 以 


ze 


AS 


dr 


I p 


EH 


(names are decoded) 


names left as bytes) 


经 编码 的 原始 字 节 


文本 字符 串 来 编码 的 文件 名 ， 文 件 


作为 目录 名 从 而 导致 产生 的 名 称 以 未 
形式 返回 。 在 显示 目录 内 容 时 ， 文 件 名 包含 了 原始 的 UTF-8 编码 。 


有 关 文 件 名 的 处 理 请 参阅 5.15 节 。 

最 后 要 说 的 是 ， 有 些 程序 员 可 能 会 因为 性 能 上 有 可 能 得 到 提升 而 倾向 于 将 字 节 串 作 为 
文本 字符 串 的 替代 来 使 用 。 尽 管 操 纵 字 节 确 实 要 比 文本 来 的 略微 高 效 一 些 ( 由 于 同 
Unicode 相关 的 固有 开销 较 高 )， 但 这 人 么 做 通常 会 导致 非常 混乱 和 不 符合 语言 习惯 的 代 


码 。 我 们 常会 发 现 字 节 串 和 Python 中 许多 其 他 部 分 并 不 能 很 好 地 相 容 ， 这 样 为 了 保证 


ode ab 习 


结果 的 正确 性 ， 我 们 只 能 手 


文本 打交道 ， 在 程序 中 使 用 普通 的 文本 字符 


BELA, ANE BH. 


动 去 执行 各 种 各 样 的 编码 /解码 操作 。 坦 白地 说 ， 如 果 要 同 
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